BiRefNet

BiRefNet (Bilateral Reference Network) — state-of-the-art архитектура нейросети для задач dichotomous image segmentation. Опубликована в 2024 году, превосходит U-Net и SAM по точности на бордерах объектов.

BiRefNet (Bilateral Reference Network) — архитектура нейросети для задачи dichotomous image segmentation (бинарная сегментация изображений). Опубликована в статье «Bilateral Reference for High-Resolution Dichotomous Image Segmentation» (Zheng et al., AAAI 2024 / IEEE TPAMI 2024). По совокупности метрик — лучшая открытая модель сегментации изображений на 2025–2026 год.

Задача: dichotomous image segmentation

DIS (Dichotomous Image Segmentation) — это бинарная сегментация: каждому пикселю присваивается метка «объект» (foreground) или «фон» (background). В отличие от instance segmentation (YOLO, Mask R-CNN), DIS работает с произвольными объектами без предобученных классов. Датасет DIS5K содержит 5470 изображений объектов в 23 категориях с пиксельно-точными масками — benchmark для оценки всех DIS-моделей.

Архитектура BiRefNet

BiRefNet состоит из трёх ключевых компонентов:

Encoder (backbone): Vision Transformer — Swin Transformer Large или Swin Transformer Base. Swin-L даёт лучшее качество, Swin-B — лучший баланс качества и скорости.
Global Reference Branch: понимает семантику всей сцены. Использует dilated convolutions и global average pooling для агрегации глобального контекста. Отвечает за правильную классификацию «объект vs фон» на уровне regions.
Local Reference Branch: работает с высоким разрешением (полное разрешение входного изображения без downsampling). Восстанавливает точные границы объекта на уровне пикселей.

Ключевая инновация — билатеральный cross-attention: на каждом уровне иерархии глобальная ветка «консультируется» с локальной и наоборот. Это позволяет одновременно сохранять семантическое понимание и субпиксельную точность границ.

Метрики на DIS5K benchmark

F-measure (F-β weighted): 0.934 — наивысший среди всех опубликованных моделей
MAE (Mean Absolute Error): 0.027 — среднее отклонение alpha-значения
S-measure (Structure-measure): 0.905 — оценка структурной схожести с GT-маской
E-measure (Enhanced-alignment measure): 0.952
Для сравнения, IS-Net (2022): F-measure 0.894, MAE 0.036
U²-Net (2020): F-measure 0.869, MAE 0.054

Варианты моделей BiRefNet

birefnet-general — универсальная модель для любых объектов, обучена на DIS5K + дополнительных данных
birefnet-portrait — дообучена на датасете портретов, лучше обрабатывает волосы
birefnet-hrsod — High-Resolution Salient Object Detection, оптимизирована для high-res входа
birefnet-cod — Camouflaged Object Detection, для объектов, сливающихся с фоном
birefnet-massive — 2024 год, обучена на смешанном датасете DIS + HRSOD + DUTS + HRS10K

Требования к железу и скорость

Swin-B backbone: ~350 МБ VRAM, 0.3–0.5 с на фото 1024×1024 на RTX 3090
Swin-L backbone: ~850 МБ VRAM, 0.5–0.8 с на фото 1024×1024 на RTX 3090
CPU inference (через ONNX): 3–8 с на фото на Core i9
Apple Silicon M3 (CoreML): ~1.2 с на фото

Лицензия и коммерческое использование

Код BiRefNet: Apache 2.0 — свободное использование в коммерческих проектах. Предобученные веса, опубликованные командой авторов на HuggingFace — некоммерческая лицензия (для исследований). Для коммерческого применения требуется либо собственное обучение, либо использование Community-версий весов, выложенных третьими сторонами под более свободными лицензиями (например, BRIA версия BiRefNet-compatible).

Все термины