BiRefNet
BiRefNet (Bilateral Reference Network) — нейросеть для high-resolution dichotomous image segmentation от Zheng et al. (AAAI 2024). F-measure 0.934 на DIS5K — лучший открытый результат для удаления фона на 2026 год.
BiRefNet (Bilateral Reference Network) — архитектура нейросети для задачи dichotomous image segmentation (бинарная сегментация изображений). Опубликована в статье «Bilateral Reference for High-Resolution Dichotomous Image Segmentation» (Zheng et al., AAAI 2024 / IEEE TPAMI 2024). По совокупности метрик — лучшая открытая модель сегментации изображений на 2025–2026 год. Используется в большинстве современных сервисов удаления фона, включая Panda AI.
Задача: dichotomous image segmentation
DIS (Dichotomous Image Segmentation) — это бинарная сегментация: каждому пикселю присваивается метка «объект» (foreground) или «фон» (background). В отличие от instance segmentation (YOLO, Mask R-CNN), DIS работает с произвольными объектами без предобученных классов. Датасет DIS5K содержит 5470 изображений объектов в 23 категориях с пиксельно-точными масками — benchmark для оценки всех DIS-моделей.
Архитектура BiRefNet
BiRefNet состоит из трёх ключевых компонентов:
- Encoder (backbone): Vision Transformer — Swin Transformer Large или Swin Transformer Base. Swin-L даёт лучшее качество, Swin-B — лучший баланс качества и скорости.
- Global Reference Branch: понимает семантику всей сцены. Использует dilated convolutions и global average pooling для агрегации глобального контекста. Отвечает за правильную классификацию «объект vs фон» на уровне regions.
- Local Reference Branch: работает с высоким разрешением (полное разрешение входного изображения без downsampling). Восстанавливает точные границы объекта на уровне пикселей.
Ключевая инновация — билатеральный cross-attention: на каждом уровне иерархии глобальная ветка «консультируется» с локальной и наоборот. Это позволяет одновременно сохранять семантическое понимание и субпиксельную точность границ. Подробнее об архитектуре U-Net и преемников.
Метрики на DIS5K benchmark
- F-measure (F-β weighted): 0.934 — наивысший среди всех опубликованных моделей
- MAE (Mean Absolute Error): 0.027 — среднее отклонение alpha-значения
- S-measure (Structure-measure): 0.905 — оценка структурной схожести с GT-маской
- E-measure (Enhanced-alignment measure): 0.952
- Для сравнения, IS-Net (2022): F-measure 0.894, MAE 0.036
- U2-Net (2020): F-measure 0.869, MAE 0.054
Варианты моделей BiRefNet
birefnet-general— универсальная модель для любых объектов, обучена на DIS5K + дополнительных данныхbirefnet-portrait— дообучена на датасете портретов, лучше обрабатывает волосыbirefnet-hrsod— High-Resolution Salient Object Detection, оптимизирована для high-res входаbirefnet-cod— Camouflaged Object Detection, для объектов, сливающихся с фономbirefnet-massive— 2024 год, обучена на смешанном датасете DIS + HRSOD + DUTS + HRS10K
Требования к железу и скорость
- Swin-B backbone: ~350 МБ VRAM, 0.3–0.5 с на фото 1024×1024 на современной GPU
- Swin-L backbone: ~850 МБ VRAM, 0.5–0.8 с на фото 1024×1024
- CPU inference (через ONNX): 3–8 с на фото на Core i9
- Apple Silicon M3 (CoreML): ~1.2 с на фото
BiRefNet vs альтернативы 2026
На 2026 год BiRefNet остаётся лидером по точности на DIS5K. Конкуренты: BRIA RMBG 2.0 (близкий F-measure, открытая коммерческая лицензия), SAM 2 (Segment Anything Model от Meta, требует prompt). Для автоматического удаления фона без подсказок BiRefNet оптимален по соотношению качество/простота интеграции.
Лицензия и коммерческое использование
Код BiRefNet: Apache 2.0 — свободное использование в коммерческих проектах. Предобученные веса, опубликованные командой авторов на HuggingFace — некоммерческая лицензия (для исследований). Для коммерческого применения требуется либо собственное обучение, либо использование Community-версий весов, выложенных третьими сторонами под более свободными лицензиями (например, BRIA версия BiRefNet-compatible).
FAQ — BiRefNet
Чем BiRefNet лучше U-Net?
U-Net — общая архитектура сегментации, BiRefNet — специализированная архитектура для dichotomous image segmentation с двумя отдельными ветками для глобального и локального контекста. F-measure на DIS5K: U-Net ~0.82 vs BiRefNet 0.934 — разница более 10 процентных пунктов.
Можно ли использовать BiRefNet через rembg?
Да, начиная с rembg 2.0.50 поддерживается через флаг -m birefnet-general и другие варианты. Это самый простой способ интеграции BiRefNet в Python-проекты.
Где попробовать BiRefNet онлайн?
В сервисе удаления фона Panda AI — мы используем BiRefNet Large на собственных GPU. Цена 30 коп./фото, скорость 0.5–1 с.