U-Net
U-Net — архитектура свёрточной нейросети для семантической сегментации (Ronneberger et al., MICCAI 2015). Encoder-decoder с skip-connections в форме буквы «U». Основа для всех современных моделей сегментации.
U-Net — архитектура свёрточной нейронной сети для семантической сегментации изображений, опубликованная в 2015 году командой Olaf Ronneberger et al. в Университете Фрайбурга (MICCAI 2015). Изначально создавалась для биомедицинской сегментации (выделение клеток на микрофотографиях), но быстро стала универсальным стандартом для задач, где нужно классифицировать каждый пиксель. На 2026 год — самая цитируемая архитектура в computer vision (более 80 000 цитирований).
Архитектура U-Net
Название отражает форму архитектуры: encoder спускается вниз, decoder поднимается вверх — получается буква «U».
- Contracting path (encoder): серия свёрток + max-pooling, уменьшающая разрешение с 572×572 до 28×28, увеличивающая глубину каналов с 1 до 1024
- Expansive path (decoder): серия up-convolutions, восстанавливающая разрешение обратно до близкого к исходному
- Skip connections: соединения с одинаковых уровней encoder→decoder. Главная инновация — пропускают пространственную информацию мимо bottleneck
- Final layer: 1×1 свёртка для классификации каждого пикселя
Зачем нужны skip connections
Без skip-connections decoder восстанавливал бы пространственную информацию «с нуля» из bottleneck — это требовало бы огромного количества параметров. Skip-connections передают точные пиксельные данные с верхних уровней encoder напрямую в соответствующие уровни decoder. Decoder отвечает только за «классификацию», а «где это находится» приходит готовое сверху.
Применения U-Net
- Медицинская сегментация: МРТ, КТ, биопсии — оригинальное применение
- Спутниковые снимки: выделение зданий, дорог, лесов
- Автопилот: сегментация дороги, машин, пешеходов
- Удаление фона: ранние модели (rembg u2net) построены на U-Net
- Латентная диффузия: U-Net — основной компонент Stable Diffusion (внутри latent space)
Эволюция U-Net
- U-Net (2015): оригинал, ~7.7M параметров
- U-Net++ (2018): nested skip-connections, лучше для медицины
- U2-Net (2020): рекурсивная вложенная U-Net, использовалась в rembg
- TransUNet (2021): U-Net + Transformer encoder
- BiRefNet (2024): развитие идей U-Net с двумя ветками контекста
U-Net в Stable Diffusion
В диффузионных моделях U-Net используется по-другому — для предсказания шума на каждом шаге обратной диффузии. Архитектура та же (encoder-decoder + skip), но входы/выходы другие: вместо «изображение → маска» это «зашумлённый latent → предсказанный шум». Размер U-Net в SD ~860M параметров (значительно больше оригинальной).
U-Net vs BiRefNet
Оригинальная U-Net — общая архитектура для любой сегментации, F-measure на DIS5K ~0.82. BiRefNet — специализированная архитектура для high-resolution dichotomous image segmentation, F-measure 0.934. BiRefNet — это «U-Net, оптимизированный для удаления фона» с двумя референсами и Vision Transformer backbone.
FAQ — U-Net
U-Net устарела в 2026?
Оригинальная архитектура — да, превзойдена специализированными моделями. Но идеи U-Net (encoder-decoder + skip) живут во всех современных моделях сегментации: BiRefNet, SAM, Segment Anything 2.
Можно ли обучить свою U-Net?
Да, есть реализации в PyTorch и TensorFlow, обучение на собственном датасете занимает 4–24 часа на GPU.
U-Net применяется в Panda AI?
Косвенно — через BiRefNet (наследник U-Net идей) для удаления фона и через U-Net в latent space диффузионных моделей для edit-by-prompt.