SwinIR
Image Restoration model на базе Swin Transformer — модель восстановления и апскейла изображений, использующая Transformer-архитектуру с оконным вниманием. Опубликована в августе 2021 года командой Liang et al. (ETH Zurich). На многих задачах превосходит классический ESRGAN.
Определение SwinIR
SwinIR — нейросеть для image restoration (апскейл, денойзинг, JPEG-deblock) на архитектуре Swin Transformer. Paper Jingyun Liang и коллег из ETH Zurich и Wuhan University, август 2021 (arXiv:2108.10257). На момент выхода — SOTA на DIV2K, Set5, Set14, Urban100, BSD100, Manga109.
Принципиальное отличие от ESRGAN и Real-ESRGAN — Transformer вместо CNN. Базовый блок — RSTB (Residual Swin Transformer Block) с Window-based Multi-head Self-Attention. Окна 8×8 сдвигаются между слоями (shifted windows), что обеспечивает обмен информацией без квадратичной сложности глобального attention.
Три варианта модели: SwinIR-light (~900K параметров, real-time), SwinIR (~11.8M), SwinIR-large (~28M). Все тренировались на DIV2K + Flickr2K.
Сильные и слабые стороны
SwinIR сильнее GAN-семейства на:
- Регулярные текстуры — кирпич, ткань, обои, паркет. Transformer лучше улавливает повторяющиеся паттерны на широком окне контекста.
- Текст и линии — печатные буквы, edges архитектуры. Меньше галлюцинаций на тонких структурах.
- Денойзинг — отдельные веса для colored Gaussian denoising на разных уровнях шума (σ=15/25/50).
- JPEG deblocking — удаление характерных «квадратиков» (см. JPEG-артефакты).
Слабее на:
- Лицах — Real-ESRGAN и тем более специализированные GFPGAN и CodeFormer дают более «человечные» портреты.
- Реальных шумных фото — классика SwinIR тренировалась на синтетическом bicubic-даунсемпле, как старый ESRGAN. Real-SwinIR (2022) с переобучением закрывает эту слабость.
В 2024 году появился HAT (Hybrid Attention Transformer) — наследник, добавляющий каналовое внимание. К 2026 SwinIR — рабочая лошадка для специфичных задач (тексты, регулярные текстуры, документы), но как универсальное решение её обогнали диффузионные апскейлеры вроде SeedVR2.
Связанные концепции
SwinIR — представитель Transformer-семейства super-resolution, конкурент GAN-моделей ESRGAN и Real-ESRGAN. Современный преемник — SeedVR2 (диффузия), превосходящий и SwinIR, и Real-ESRGAN на большинстве задач 2026. Для лиц — GFPGAN и CodeFormer. Общий термин — апскейл фото. В Panda AI апскейл на базе SeedVR2; SwinIR доступен на Hugging Face и через kohya scripts.
Частые вопросы
SwinIR лучше Real-ESRGAN?
Зависит от типа контента. На текстах, документах, регулярных текстурах SwinIR точнее — меньше галлюцинаций. На лицах и натуральных шумных фото Real-ESRGAN мягче и приятнее. Для универсальных пользовательских фото Real-ESRGAN — безопасный выбор, SwinIR — для специализированных задач.
Что такое Swin Transformer?
Архитектура Transformer для изображений от Microsoft Research (Liu et al., март 2021). Иерархия от мелких окон к крупным с расширением receptive field через shifted windows. Решает квадратичную сложность ViT и делает Transformer применимым к dense prediction: сегментации, детекции, super-resolution.
Нужна ли мощная GPU?
SwinIR-light работает на CPU и слабых картах (3–5 секунд на фото 1 МП). Базовая требует ~4 ГБ VRAM для 1024×1024, быстро на RTX 3060+. SwinIR-large — 6+ ГБ. Для больших фото — tiling на патчи 256×256 с перекрытием.
Существует ли Real-SwinIR?
Да, в 2022 — версия, дообученная на синтетической real-world деградации (как Real-ESRGAN). Работает с реальными смартфон-снимками и сканами лучше базовой. Веса на Hugging Face, интегрирована в Upscayl и chaiNNer.