Удаление фонаZhengPeng Lab (open-source)Релиз: 12 января 2024

BiRefNetудаление фона

Open-source SOTA для удаления фона нейросетью. Точно выделяет волосы, мех, прозрачности и тонкие края. Лучше rembg, U2Net и MODNet. MIT-лицензия.

0рейтинг
Официальный сайт: github.com/ZhengPeng7/BiRefNet
Попробовать на PhotoPandaот 0.20 ₽ за фото

Характеристики BiRefNet

Разработчик
ZhengPeng Lab (open-source)
Категория
Удаление фона
Дата релиза
12 января 2024
Семейство
BiRefNet
I/O режимы
Фото → фото
Доступ из РФ
🟢 Open-source (локально)

Возможности

  • Удаление фона с волосами и мехом
  • Работа с прозрачностями и стеклом
  • Поддержка разрешений до 2048×2048
  • Тримап-фри матирование с альфа-каналом
  • weighted F-measure 0.894 на DIS-TE4
  • MIT-лицензия для коммерции
  • FP16-инференс на 3.5 ГБ VRAM
  • Пакетная обработка через batch API

BiRefNet в бенчмарках и тестах

Результаты из известных систем оценки и независимых leaderboard'ов. Цифры берутся из официальных публикаций разработчика и публичных бенчмарков.

DIS-VD (S-measure)

0.911

Структурная метрика на валидационном наборе Dichotomous Image Segmentation для general-чекпоинта SwinL 1024×1024.

Источник: github.com/ZhengPeng7/BiRefNet · 2024-08-15

DIS-TE4 (weighted F-measure)

0.894

Взвешенная F-мера на DIS-TE4 (HR-вариант) — стандартная метрика качества выделения тонких краёв и волос.

Источник: github.com/ZhengPeng7/BiRefNet · 2024-08-15

TE-P3M-500-NP matting (wF)

0.988

Weighted F-measure на бенчмарке general matting — тонкое выделение объекта с альфа-каналом без тримапа.

Источник: github.com/ZhengPeng7/BiRefNet · 2024-08-15

Portrait matting (S-measure)

0.983

Структурная метрика на портретном матировании — устойчивость к волосам, лицам и пограничным пикселям.

Источник: github.com/ZhengPeng7/BiRefNet · 2024-08-15

Inference на RTX 4090 (FP16)

57.7 мс

Время прогона одного кадра 1024×1024 на потребительском GPU в полуточном режиме — продакшен-готово.

Источник: github.com/ZhengPeng7/BiRefNet · 2024-08-15

Что это

BiRefNet: удаление фона нейросетью

BiRefNet (Bilateral Reference Network) — открытая нейросеть для задачи Dichotomous Image Segmentation: предельно точного удаления фона с фото с переносом тончайших деталей. Разработана лабораторией ZhengPeng в 2024 году, paper опубликован в CAAI AI Research, веса лежат на GitHub под лицензией MIT.

В отличие от типовых решений вроде rembg, U2Net и MODNet, BiRefNet специально обучен на наборах данных высокого разрешения (DIS5K, HRSOD, UHRSD) и держит первое место в категории High-Resolution Salient Object Detection на Papers with Code. По задаче «удалить фон с фото нейросетью» — это лучший открытый инструмент на 2026 год.

Главные цифры

Что важно знать о точности и аппаратных требованиях перед запуском.

0.894
weighted F-measure на DIS-TE4

Лучший результат среди open-source бэкграунд-ремуверов. У U2Net (rembg) — ~0.65–0.70.

MIT
Лицензия

Разрешено любое коммерческое использование с сохранением атрибуции.

3.5 ГБ
VRAM в FP16 на 1024×1024

Запускается на RTX 3060 12GB. Для HR-варианта 2048×2048 — нужно ~8 ГБ.

57.7 мс
Инференс на RTX 4090 (FP16)

Пакет из 1000 фото обрабатывается за ~90 секунд GPU-времени.

Что умеет нейросеть BiRefNet

Шесть способностей, ради которых разработчики берут BiRefNet вместо rembg или коммерческого remove.bg.

Чистый альфа-канал на волосах

Каждая разлетающаяся прядь, концы кудряшек, мелкая щетина — корректно переносятся в PNG. Главная боль rembg и MODNet закрыта.

Мех, шерсть, перья

Шерсть кошек и собак, перья птиц, меховой воротник — модель аккуратно вырезает с сохранением микроструктуры. Критично для каталогов зоомагазинов.

Прозрачности и стекло

Бокалы, очки, прозрачные упаковки, ажурное кружево — BiRefNet корректно работает с тримап-фри матированием и полупрозрачными областями.

Тонкие края и проволока

Ножки очков, дужки сумок, кабели, цепочки украшений, проволочные изделия. Контур не «съедается» и не размывается.

Высокое разрешение

HR-чекпоинт обучен на 2048×2048 пикселей. Поддержка фото до 4K без артефактов и характерных «лесенок» по контуру.

Batch-обработка через API

REST API для пакетной обработки — 10 000 фото за 15 минут на RTX 3090. Webhook-уведомление о завершении, ZIP-архивом или поштучно.

Чем BiRefNet отличается от rembg, MODNet и Remove.bg

Wordstat показывает массовые запросы «birefnet vs rembg» и «лучшая нейросеть для удаления фона» — собрали сравнение в таблицу.

ПараметрЭта модельrembg (U2Net)MODNetRemove.bg
Год / SOTA-статус2024, SOTA на DIS2020, базовый2020, портретыЗакрытый коммерческий
weighted F-measure (DIS-TE4)0.894~0.65–0.70~0.72 (портреты)~0.88 (закрытый)
Качество волос и мехаОтличноУдовлетворительноХорошо (портреты)Отлично
Прозрачности и стеклоПоддерживаетНе поддерживаетСлабоПоддерживает
Максимальное разрешениеДо 4K (HR-вариант)~1024×1024~512×512До 25 МП
ЛицензияMIT (свободная)MITApache 2.0Закрытая, $0.2/фото
Запуск локальноДа, на 6+ ГБ VRAMДа, CPU OKДа, CPU OKНет, только API

Если нужна максимальная точность на волосах, мехе и тонких краях с open-source лицензией — BiRefNet. Для простых задач без сложных кромок rembg достаточно и работает на CPU.

Как удалить фон с фото нейросетью BiRefNet

Три рабочих способа: онлайн без регистрации, через ComfyUI на своём ПК и через API для интеграции в продакшен.

  1. 1

    Загрузите фото в веб-инструмент

    Через браузер: JPG, PNG, WebP или HEIC, до 50 МБ за файл. Никакой регистрации для пробных фото не нужно.

  2. 2

    Дождитесь обработки (2–5 секунд)

    Модель выберет подходящий чекпоинт (general или HR) автоматически по разрешению исходника. Прогресс отображается в реальном времени.

  3. 3

    Проверьте альфа-канал на сложных областях

    Включите режим просмотра с прозрачным фоном (шахматная сетка). Особое внимание — концы волос, контуры одежды, мелкие детали.

  4. 4

    Скачайте PNG с прозрачным фоном

    Готовый файл с альфа-каналом. Подходит для коллажей, карточек маркетплейса, презентаций, дизайн-проектов. Опционально — пакетный ZIP-архив.

Советы для лучшего результата на нейросети BiRefNet

Эти приёмы повышают качество альфа-канала на сложных кадрах — забирайте в шпаргалку.

Совет

Используйте HR-вариант на фото >2K

Для разрешений выше 1024×1024 переключайте чекпоинт на BiRefNet_HR — он обучен на 2048×2048 и даёт прирост weighted F-measure на 0.02.

Совет

Снимайте при контрастном фоне

Если планируете заранее — берите однотонный фон (зелёный, синий, белый), контрастный объекту. Модель работает быстрее и точнее.

Совет

Свет в кадре равномерный

Жёсткие тени на одежде или волосах модель иногда «съедает» как часть фона. Мягкий рассеянный свет — оптимальное решение.

Совет

Тримап-фри матирование для прозрачностей

Для бокалов, очков, прозрачных упаковок используйте чекпоинт BiRefNet-matting — он умеет в полупрозрачные альфа-значения, а не только бинарную маску.

Совет

Пакетная обработка через API

Для пакета 100+ фото быстрее использовать REST API с авторизацией по ключу. Параллелизм до 10 запросов, webhook о завершении.

Совет

Постобработка edge-артефактов

На сложных кадрах остаются мелкие пиксельные артефакты по контуру. Антиалиасинг + размытие 1px по маске убирают 95% таких случаев.

Плюсы и минусы BiRefNet для удаления фона

Плюсы
  • Лучшее качество на волосах и мехе
    weighted F-measure 0.894 на DIS-TE4 — выше всех open-source альтернатив. Закрывает 95% задач без ручной правки в Photoshop.
  • MIT-лицензия для коммерции
    Можно встраивать в SaaS, плагины, мобильные приложения без согласований и роялти. Достаточно сохранить атрибуцию в исходниках.
  • Открытые веса
    Чекпоинты лежат на Hugging Face — можно скачать, дообучить на своих данных, развернуть on-premise для чувствительных индустрий.
  • Поддержка тримап-фри матирования
    Полупрозрачные альфа-значения для стекла, кружева, бокалов. У rembg и U2Net этого нет — только бинарная маска.
Минусы
  • Требует GPU для скорости
    На CPU работает, но 5–15 секунд на фото вместо 0.06 сек на RTX 4090. Для пакета 1000 фото CPU непрактичен.
  • VRAM от 3.5 ГБ
    На слабых картах (RTX 1660, MX450) тяжело. Решение — квантованный lite-вариант или GGUF, но качество немного ниже.
  • Не работает в реальном времени
    57 мс на кадр RTX 4090 — это 17 FPS максимум. Для AR-стримов и видеозвонков лучше MODNet или RVM.
  • Edge-артефакты на сложных кадрах
    На фото с плотным движением, JPEG-сжатии и низким контрастом контур требует постобработки антиалиасингом.

Где применяется BiRefNet

Реальные сценарии использования модели — от продуктовой съёмки и маркетплейсов до семейных фотосессий и художественных проектов.

Каталог маркетплейса

Удаление фона у тысяч карточек Wildberries, Ozon и Lamoda с сохранением шерсти, кружева, прозрачностей и металлических деталей. Пакетная обработка по API.

Портреты и причёски

Нейросеть аккуратно вырезает причёску с разлетающимися прядями, не «съедая» концы волос. Подходит для аватаров, ID-фото и презентаций.

Каталог украшений и часов

Чистый альфа-канал на изделиях с тонкой цепочкой, гранями камней и блестящими полированными поверхностями без чёрной обводки.

Стоковые и предметные съёмки

Подготовка PNG-исходников для коллажей: ажурные ткани, плетёная мебель, проволочные изделия выделяются с альфа-каналом без ручной правки.

Зоомагазины и питомники

BiRefNet корректно выделяет шерсть и усы животных — критично для каталогов кормов, груминг-салонов и сайтов питомников.

Дизайн и DTP-агентства

Подложка чистых PNG для макетов в Figma, Photoshop и InDesign. Сокращает рутинную выкрутку фотографий до пары минут на пачку.

Виртуальная примерка

Чистая маска одежды для последующего наложения на манекен или модель в Nano Banana, GPT Image и других multi-image-edit моделях.

Замена фона на сайте

Единый белый или брендовый фон для всех фото в карточках товаров. Используется для пакетной обработки 1000+ изображений.

Сколько стоит BiRefNet

Тариф: бесплатно — open-source (MIT)
Есть бесплатный tier
ТарифПараметрыЦена
Локально на своём GPUMIT-лицензия · веса с GitHub / Hugging FaceБесплатно
Облачный GPU (Selectel, Cloud.ru)RTX 4090 · аренда по часамот 80 ₽/ час
Hugging Face SpacesБесплатное демо · с очередями в пиковые часыБесплатно
ComfyUI с нодой BiRefNetУстановка через ComfyUI ManagerБесплатно
REST API (готовый продакшен)См. карточку справа · без своего железаот 0,20 ₽/ фото
  • MIT-лицензия требует сохранения атрибуции автора (ZhengPeng7) в исходниках продукта.
  • На пакетной обработке 1000+ фото на RTX 3090 себестоимость инференса — около 0,05 ₽ за кадр.
  • Веса general-чекпоинта весят ~885 МБ, HR-вариант — ~885 МБ, lite — ~210 МБ.
  • Аренда облачного GPU окупается до 80–100 фото/час; на больших объёмах — своё железо.
Россия 🇷🇺

Как использовать BiRefNet в России и можно ли оплатить

Доступ
Open-source · локально
Оплата из РФ
Бесплатно (open-source)

BiRefNet полностью доступен в России

Это open-source проект под лицензией MIT — никаких санкционных ограничений. GitHub-репозиторий и Hugging Face открываются из РФ напрямую, без VPN. Веса можно скачать, развернуть на своём GPU и использовать бесплатно без лимитов. Лицензия прямо разрешает коммерческое применение, в том числе в SaaS и B2B-продуктах.

Три способа использовать BiRefNet из РФ

Выбирайте по инфраструктуре: от прямого запуска на своей видеокарте до готового веб-инструмента с оплатой в рублях.

  1. 1

    Запуск локально на своём GPU

    Скачать веса с GitHub ZhengPeng7/BiRefNet или Hugging Face, поставить PyTorch с CUDA, запустить inference.py. Нужна видеокарта от 6 ГБ VRAM (RTX 3060 12 GB, 4060, 4070). Бесплатно навсегда.

  2. 2

    Через ComfyUI

    В ComfyUI Manager есть готовая нода BiRefNet — устанавливается в один клик. Подходит для дизайнеров, которые уже работают со Stable Diffusion и Flux. Веса лежат в models/birefnet/.

  3. 3

    Облачный GPU в РФ

    Selectel, Cloud.ru, Yandex Cloud — аренда RTX 4090 от 80 ₽ в час. Подходит для одноразовых проектов и пакетной обработки без покупки своего железа.

Свой GPU vs облачный сервис

Плюсы
  • Без затрат после покупки железа
    RTX 3090 24 ГБ окупает себя на ~3000 фото в неделю по сравнению с облачной арендой. Дальше — чистая экономия.
  • Полный контроль над данными
    Фото не покидают вашу инфраструктуру. Критично для госзаказа, медицины, банков и любых чувствительных к утечкам индустрий.
  • Кастомизация модели
    Можно дообучить чекпоинт на своих данных — например, под специфическую категорию товаров. Fine-tune занимает 2–4 часа.
Минусы
  • Нужен админ для деплоя
    PyTorch, CUDA, FastAPI, очереди — без DevOps-опыта тяжело. Облачный сервис закрывает это за 0 минут настройки.
  • Сложность горизонтального масштабирования
    Если пиковая нагрузка резко растёт — нужен балансировщик и несколько GPU. В облаке масштабирование занимает минуты.

Где запустить BiRefNet без своего GPU

Если нужен готовый веб-инструмент с оплатой в рублях — BiRefNet встроен в инструмент «Удалить фон»: загружаете фото, через 2–5 секунд получаете PNG с прозрачным фоном. Без VPN, без валютных карт, ЮKassa с картами МИР и СБП. Закрывающие документы для ИП и ООО — по запросу. Free tier 5 пробных фото в день с водяным знаком.

PhotoPanda работает из РФ без VPN, оплата в рублях через ЮKassa. Если BiRefNet не подключена напрямую — у нас есть аналоги в каталоге.

Каталог моделей

Частые вопросы про BiRefNet

Ответы на популярные вопросы по цене, доступу из России, лицензии, возможностям и сравнению с конкурентами.

Сколько стоит BiRefNet?

Сама модель бесплатна — лицензия MIT разрешает любое использование, в том числе коммерческое. Веса можно скачать с GitHub (ZhengPeng7/BiRefNet) или Hugging Face без регистрации и платежей.

Финансовые расходы возникают только за инфраструктуру:

Сценарий Цена Когда выбирать
Локально на своём GPU Бесплатно Регулярная обработка, есть RTX 3060+
Облачный GPU (Selectel, Cloud.ru) от 80 ₽/час RTX 4090 Одноразовые проекты, нет своего железа
Hugging Face Spaces Бесплатно Тест на 5–10 фото, без срочности
Готовый веб-сервис от 0,20 ₽ за фото Нужно прямо сейчас, без админа

На пакете в 10 000 фото себестоимость инференса на собственном RTX 3090 — около 0,05 ₽ за кадр (электричество + амортизация). На облаке — около 0,08 ₽. Готовый сервис включает GPU + постобработку + хранение + API.

Доступна ли BiRefNet в России?

Да, полностью доступна. Это open-source проект на GitHub (ZhengPeng7/BiRefNet) и Hugging Face — оба ресурса в РФ открываются напрямую без VPN. Никаких санкционных ограничений на лицензии MIT нет, она прямо разрешает коммерческое использование в любой юрисдикции, включая Россию и Беларусь.

Веса можно скачать, развернуть локально и пользоваться бесплатно — никаких ограничений по объёму или прибыли. Hugging Face иногда ограничивает массовую загрузку крупных файлов из определённых IP-диапазонов — если столкнулись с timeout, поможет кратковременный VPN или прямая ссылка с GitHub Releases.

Для облачной аренды GPU в РФ работают Selectel, Cloud.ru, Yandex Cloud — все принимают рубли, выдают акт и УПД для ИП и ООО. Также есть готовые веб-инструменты с оплатой через ЮKassa в рублях — без валютных карт и регистрации в зарубежных сервисах.

Чем BiRefNet отличается от rembg?

rembg — Python-обёртка вокруг моделей U2Net и её модификаций. Работает быстро на CPU, удобный API, но качество ограничено базовой нейросетью 2020 года.

BiRefNet — самостоятельная архитектура 2024 года: bilateral reference + Swin Transformer Large + два generator-модуля. Обучена на DIS5K, HRSOD, UHRSD, COD10K — наборах высокого разрешения со сложными силуэтами.

Практическая разница:

Метрика BiRefNet rembg (U2Net)
weighted F-measure на DIS-TE4 0.894 ~0.65–0.70
Качество на волосах Отлично Удовлетворительно
Прозрачности (стекло) Поддерживает Не поддерживает
Максимальное разрешение 2048×2048 ~1024×1024
Запуск на CPU Медленно (15 сек) Быстро (3 сек)

Если нужна точность на тонких краях и волосах — BiRefNet. Если приоритет скорость на CPU без GPU — rembg.

Как развернуть BiRefNet локально?

Локальный запуск занимает 15–20 минут. Пошаговая инструкция:

  1. Установите Python 3.10+ и PyTorch 2.0+ с поддержкой CUDA через pip или conda.
  2. Клонируйте репозиторий: git clone https://github.com/ZhengPeng7/BiRefNet и установите зависимости из requirements.txt.
  3. Скачайте веса с Hugging Face — модели лежат в репозиториях ZhengPeng7/BiRefNet и ZhengPeng7/BiRefNet_HR. Файл general — ~885 МБ.
  4. Запустите inference.py с указанием входного фото или подгрузите через transformers.AutoModelForImageSegmentation.

Минимальные требования:

  • NVIDIA GPU 6 ГБ VRAM (FP16) или 8 ГБ (FP32)
  • CUDA 11.8+ или MPS на Apple Silicon (PyTorch 2.1+)
  • CPU-fallback работает, но 15 сек на фото вместо 0.06 сек на GPU

Для продакшена соберите Docker-образ, оберните в FastAPI или Triton Inference Server, добавьте очередь BullMQ или Celery. Без админ-опыта это 2–3 дня работы.

Можно ли использовать BiRefNet бесплатно?

Да, BiRefNet — полностью бесплатная open-source модель под лицензией MIT. Никаких подписок, лимитов запросов, ограничений по объёму или коммерческому доходу.

Что входит в «бесплатно»:

  • Скачать веса с GitHub или Hugging Face без регистрации
  • Использовать в личных и коммерческих проектах
  • Перепродавать продукты на её основе
  • Дообучать на своих данных
  • Встраивать в SaaS, плагины, мобильные приложения

Единственное обязательство — сохранять упоминание авторства (ZhengPeng7) и ссылку на оригинальный paper «Bilateral Reference for High-Resolution Dichotomous Image Segmentation» (CAAI AIR, 2024) в исходниках продукта.

Расходы возникают только за инфраструктуру: облачный GPU (~80 ₽/час) или электричество для собственной видеокарты. Если своего железа нет — попробуйте Hugging Face Spaces (бесплатное демо) или готовые веб-сервисы (от 0,20 ₽ за фото).

Поддерживает ли BiRefNet русский язык?

BiRefNet — это модель для изображений, не для текста, поэтому понятие «русский язык» к ней не относится напрямую. Модель работает с пикселями: на вход — RGB-фото, на выход — альфа-маска.

Что работает на русскоязычных проектах:

  • Документация на русском есть в зеркалах сообщества и Telegram-каналах
  • Веб-инструменты с интерфейсом на русском доступны без переводчика
  • Туториалы на YouTube на русском — ищите «BiRefNet удаление фона» или «BiRefNet ComfyUI»
  • Промпты не нужны — модель работает автоматически без текстового ввода

Если на фото есть русский текст (вывески, упаковка, чеки) — BiRefNet корректно сохраняет его в выделенном объекте без искажений. Это плюс по сравнению с моделями, которые «съедают» мелкие шрифты на границах.

Поддержка в инструментах: ComfyUI имеет русский язык в Manager, Hugging Face Spaces — на английском, российские веб-сервисы — на русском с поддержкой по email и в Telegram.

Можно ли использовать BiRefNet в коммерческом продукте?

Да, лицензия MIT прямо разрешает коммерческое использование, перепродажу, модификацию и встраивание в SaaS-продукты без ограничений по объёму, доходу или географии.

Что разрешено:

  • Встроить BiRefNet в собственный сервис удаления фона
  • Сделать платный плагин для Photoshop / Figma / DaVinci
  • Запустить Telegram-бота за платную подписку
  • Включить в мобильное приложение в App Store или Google Play
  • Использовать в обработке для рекламных агентств, маркетплейсов, медиа

Единственное обязательство — сохранить упоминание авторства в исходниках. Минимальный вариант: текстовый файл LICENSE в репозитории + упоминание в About-разделе сайта/приложения с ссылкой на оригинальный paper.

Для enterprise-внедрений (банки, госзаказ, медицина) MIT — одна из самых дружественных лицензий: проходит проверку безопасности проще, чем GPL или AGPL. Не нужны юридические согласования с автором, не нужны роялти. Если есть сомнения по конкретному use-case — напишите в Issues репозитория, ZhengPeng7 отзывчив.

Какая лучшая нейросеть для удаления фона в 2026 году?

На 2026 год BiRefNet — лучший open-source бэкграунд-ремувер по совокупности качества, лицензии и активности развития. Это подтверждается:

  • Papers with Code: BiRefNet удерживает первые места в Dichotomous Image Segmentation, Camouflaged Object Detection и High-Resolution Salient Object Detection
  • Бенчмарки: weighted F-measure 0.894 на DIS-TE4 — выше всех альтернатив с открытыми весами
  • Активность: репозиторий обновляется, выходят новые чекпоинты (matting, lite, HR), коммьюнити поддерживает интеграции в ComfyUI

Закрытые альтернативы:

  • Remove.bg — лидер по удобству и API. Качество сопоставимо с BiRefNet HR, но цена ~$0,20 за фото и оплата только в валюте.
  • Photoroom — мобильный фокус, отличный UX. Цена подписки ~$10/мес, доступна на iOS/Android.

Открытые альтернативы:

  • rembg — самый популярный, но качество ниже на сложных кадрах
  • InSPyReNet — близок к BiRefNet на портретах
  • RMBG-2.0 от briaai — коммерческая лицензия с ограничениями

Для большинства задач BiRefNet закрывает 95% потребностей без необходимости платить за закрытые сервисы.

BiRefNet vs rembg — что точнее на волосах?

BiRefNet заметно точнее на сложных случаях с волосами — это его главная сильная сторона. Разница не косметическая, а заметна невооружённым глазом на 80% реальных фото.

Что происходит на волосах в каждой модели:

Случай rembg (U2Net) BiRefNet
Прямые волосы на простом фоне Хорошо Отлично
Кудрявые волосы Концы «съедены» Каждая прядь сохранена
Разлетающиеся пряди Размытие, ореол Чёткий альфа-канал
Седые/блондинистые волосы Сливаются со светлым фоном Корректное выделение
Тёмные волосы на тёмном фоне Артефакты по контуру Чистый край

Технические причины:

  • BiRefNet обучен на DIS5K и HRSOD — наборах со специально размеченными сложными силуэтами включая каждую прядь волос
  • Bilateral reference + gradient supervision на этапе обучения штрафуют размытые края
  • Swin Transformer Large как backbone лучше U2Net понимает иерархические признаки на разных масштабах

Что выбрать: rembg подойдёт для простых случаев с прямыми волосами на контрастном фоне. Для портретов с кудрями, причёсками, разлетающимися прядями — однозначно BiRefNet.

Удаление фона волос нейросетью — почему сложно?

Волосы — самая сложная задача в сегментации изображений по нескольким техническим причинам, и большинство нейросетей здесь спотыкаются.

4 причины сложности:

  1. Пиксели на границе не бинарные. Полупрозрачные волосы — это смесь цвета фона и цвета волос. Чисто бинарная маска (0 или 1) неизбежно теряет такие пиксели. Нужна модель с поддержкой матирования и альфа-канала.

  2. Высокая частотность. Каждая прядь волос — это деталь в 1–3 пикселя. Конволюционные слои с большими kernel'ами размывают такие детали в первых же слоях.

  3. Контекстная неоднозначность. Седой волос на белом фоне или чёрный волос на чёрном — модели сложно понять, где граница. Нужно знание глобального контекста сцены.

  4. Разнообразие текстур. Прямые, кудрявые, дреды, тонкие, толстые, мокрые, окрашенные — каждый случай со своими физическими свойствами рассеивания света.

Как BiRefNet решает эти проблемы:

  • Тримап-фри матирование с полупрозрачными альфа-значениями для пограничных пикселей
  • Swin Transformer L видит детали на разных масштабах одновременно
  • Bilateral reference + gradient supervision учат модель ловить именно тонкие края
  • HRSOD + DIS5K в обучении — наборы с тысячами размеченных причёсок

Результат — weighted F-measure 0.894 на DIS-TE4, у U2Net (rembg) только ~0.65–0.70. На реальных кадрах разница видна без увеличения.