BiRefNet

BiRefNet (Bilateral Reference Network) — state-of-the-art архитектура нейросети для задач dichotomous image segmentation. Опубликована в 2024 году, превосходит U-Net и SAM по точности на бордерах объектов.

BiRefNet (Bilateral Reference Network) — архитектура нейросети для задачи dichotomous image segmentation (бинарная сегментация изображений). Опубликована в статье «Bilateral Reference for High-Resolution Dichotomous Image Segmentation» (Zheng et al., AAAI 2024 / IEEE TPAMI 2024). По совокупности метрик — лучшая открытая модель сегментации изображений на 2025–2026 год.

Задача: dichotomous image segmentation

DIS (Dichotomous Image Segmentation) — это бинарная сегментация: каждому пикселю присваивается метка «объект» (foreground) или «фон» (background). В отличие от instance segmentation (YOLO, Mask R-CNN), DIS работает с произвольными объектами без предобученных классов. Датасет DIS5K содержит 5470 изображений объектов в 23 категориях с пиксельно-точными масками — benchmark для оценки всех DIS-моделей.

Архитектура BiRefNet

BiRefNet состоит из трёх ключевых компонентов:

  • Encoder (backbone): Vision Transformer — Swin Transformer Large или Swin Transformer Base. Swin-L даёт лучшее качество, Swin-B — лучший баланс качества и скорости.
  • Global Reference Branch: понимает семантику всей сцены. Использует dilated convolutions и global average pooling для агрегации глобального контекста. Отвечает за правильную классификацию «объект vs фон» на уровне regions.
  • Local Reference Branch: работает с высоким разрешением (полное разрешение входного изображения без downsampling). Восстанавливает точные границы объекта на уровне пикселей.

Ключевая инновация — билатеральный cross-attention: на каждом уровне иерархии глобальная ветка «консультируется» с локальной и наоборот. Это позволяет одновременно сохранять семантическое понимание и субпиксельную точность границ.

Метрики на DIS5K benchmark

  • F-measure (F-β weighted): 0.934 — наивысший среди всех опубликованных моделей
  • MAE (Mean Absolute Error): 0.027 — среднее отклонение alpha-значения
  • S-measure (Structure-measure): 0.905 — оценка структурной схожести с GT-маской
  • E-measure (Enhanced-alignment measure): 0.952
  • Для сравнения, IS-Net (2022): F-measure 0.894, MAE 0.036
  • U2-Net (2020): F-measure 0.869, MAE 0.054

Варианты моделей BiRefNet

  • birefnet-general — универсальная модель для любых объектов, обучена на DIS5K + дополнительных данных
  • birefnet-portrait — дообучена на датасете портретов, лучше обрабатывает волосы
  • birefnet-hrsod — High-Resolution Salient Object Detection, оптимизирована для high-res входа
  • birefnet-cod — Camouflaged Object Detection, для объектов, сливающихся с фоном
  • birefnet-massive — 2024 год, обучена на смешанном датасете DIS + HRSOD + DUTS + HRS10K

Требования к железу и скорость

  • Swin-B backbone: ~350 МБ VRAM, 0.3–0.5 с на фото 1024×1024 на RTX 3090
  • Swin-L backbone: ~850 МБ VRAM, 0.5–0.8 с на фото 1024×1024 на RTX 3090
  • CPU inference (через ONNX): 3–8 с на фото на Core i9
  • Apple Silicon M3 (CoreML): ~1.2 с на фото

Лицензия и коммерческое использование

Код BiRefNet: Apache 2.0 — свободное использование в коммерческих проектах. Предобученные веса, опубликованные командой авторов на HuggingFace — некоммерческая лицензия (для исследований). Для коммерческого применения требуется либо собственное обучение, либо использование Community-версий весов, выложенных третьими сторонами под более свободными лицензиями (например, BRIA версия BiRefNet-compatible).

25 ₽ welcome бонус

Создайте фото с ИИ
за 30 секунд

AI-фотосессия по шаблону, генерация изображений нейросетью или обработка вашего фото — удаление фона, апскейл до 1440p, восстановление лиц. 10 ₽/день бесплатно без регистрации, +25 ₽ welcome бонусом — хватит на 125 удалений фона. Без карты, без подписки, без watermark.