U-Net

U-Net — архитектура свёрточной нейросети для семантической сегментации (Ronneberger et al., MICCAI 2015). Encoder-decoder с skip-connections в форме буквы «U». Основа для всех современных моделей сегментации.

U-Net — архитектура свёрточной нейронной сети для семантической сегментации изображений, опубликованная в 2015 году командой Olaf Ronneberger et al. в Университете Фрайбурга (MICCAI 2015). Изначально создавалась для биомедицинской сегментации (выделение клеток на микрофотографиях), но быстро стала универсальным стандартом для задач, где нужно классифицировать каждый пиксель. На 2026 год — самая цитируемая архитектура в computer vision (более 80 000 цитирований).

Архитектура U-Net

Название отражает форму архитектуры: encoder спускается вниз, decoder поднимается вверх — получается буква «U».

Contracting path (encoder): серия свёрток + max-pooling, уменьшающая разрешение с 572×572 до 28×28, увеличивающая глубину каналов с 1 до 1024
Expansive path (decoder): серия up-convolutions, восстанавливающая разрешение обратно до близкого к исходному
Skip connections: соединения с одинаковых уровней encoder→decoder. Главная инновация — пропускают пространственную информацию мимо bottleneck
Final layer: 1×1 свёртка для классификации каждого пикселя

Зачем нужны skip connections

Без skip-connections decoder восстанавливал бы пространственную информацию «с нуля» из bottleneck — это требовало бы огромного количества параметров. Skip-connections передают точные пиксельные данные с верхних уровней encoder напрямую в соответствующие уровни decoder. Decoder отвечает только за «классификацию», а «где это находится» приходит готовое сверху.

Применения U-Net

Медицинская сегментация: МРТ, КТ, биопсии — оригинальное применение
Спутниковые снимки: выделение зданий, дорог, лесов
Автопилот: сегментация дороги, машин, пешеходов
Удаление фона: ранние модели (rembg u2net) построены на U-Net
Латентная диффузия: U-Net — основной компонент Stable Diffusion (внутри latent space)

Эволюция U-Net

U-Net (2015): оригинал, ~7.7M параметров
U-Net++ (2018): nested skip-connections, лучше для медицины
U²-Net (2020): рекурсивная вложенная U-Net, использовалась в rembg
TransUNet (2021): U-Net + Transformer encoder
BiRefNet (2024): развитие идей U-Net с двумя ветками контекста

U-Net в Stable Diffusion

В диффузионных моделях U-Net используется по-другому — для предсказания шума на каждом шаге обратной диффузии. Архитектура та же (encoder-decoder + skip), но входы/выходы другие: вместо «изображение → маска» это «зашумлённый latent → предсказанный шум». Размер U-Net в SD ~860M параметров (значительно больше оригинальной).

U-Net vs BiRefNet

Оригинальная U-Net — общая архитектура для любой сегментации, F-measure на DIS5K ~0.82. BiRefNet — специализированная архитектура для high-resolution dichotomous image segmentation, F-measure 0.934. BiRefNet — это «U-Net, оптимизированный для удаления фона» с двумя референсами и Vision Transformer backbone.

FAQ — U-Net

U-Net устарела в 2026?

Оригинальная архитектура — да, превзойдена специализированными моделями. Но идеи U-Net (encoder-decoder + skip) живут во всех современных моделях сегментации: BiRefNet, SAM, Segment Anything 2.

Можно ли обучить свою U-Net?

Да, есть реализации в PyTorch и TensorFlow, обучение на собственном датасете занимает 4–24 часа на GPU.

U-Net применяется в Panda AI?

Косвенно — через BiRefNet (наследник U-Net идей) для удаления фона и через U-Net в latent space диффузионных моделей для edit-by-prompt.

Все термины