ESRGAN

Enhanced Super-Resolution Generative Adversarial Network — опенсорсная GAN-модель для апскейла изображений в 4 раза. Опубликована командой Xintao Wang в ECCV 2018. На момент выхода — прорыв в фотореалистичной супер-резолюции, основа всех последующих GAN-апскейлеров.

Определение ESRGAN

ESRGAN (Enhanced Super-Resolution GAN) — улучшенная версия SRGAN, paper Xintao Wang и соавторов на воркшопе ECCV 2018 (arXiv:1809.00219). Первая GAN, давшая фотореалистичный апскейл ×4 без «пластикового» блюра SRCNN и EDSR.

Архитектурно ESRGAN отказался от Batch Normalization (артефактила) и ввёл блок RRDB (Residual-in-Residual Dense Block) — иерархию residual-связей внутри Dense-блоков. Дискриминатор переведён на Relativistic GAN — оценивает реалистичность относительно реальной выборки, а не каждого образа отдельно. Третья идея — perceptual loss до активации, что лучше передаёт текстуры. ESRGAN победил в PIRM Challenge 2018 — крупнейшем тогда конкурсе по perceptual SR.

Применение и наследники

Базовый ESRGAN отлично работает на «чистых» low-res изображениях из бенчмарков DIV2K, Set5, Set14. Но на реальных «грязных» фото — сканы, JPEG-снимки со смартфона, скриншоты — усиливает шум и артефакты: тренировался на синтетических bicubic-даунсемплах.

Проблему решил Real-ESRGAN (Xintao Wang, 2021), обученный на сложной синтетической деградации (blur + noise + JPEG + sinc filter) — стал стандартом для пользовательских задач (Topaz, Upscayl). Параллельно появились более тяжёлые варианты: SwinIR (Transformer, 2021), HAT (2023), а в 2024 — диффузионные апскейлеры SeedVR2 и PASD, превосходящие GAN-семейство.

Базовый ESRGAN сейчас редок — как лёгкая модель ~17 МБ для быстрого апскейла. В Panda AI флагман — SeedVR2, fast-tier — Real-ESRGAN. Чистый ESRGAN активно используется в моддинге игр для апскейла текстур.

ESRGAN — частный случай super-resolution на базе GAN. Прямой наследник — Real-ESRGAN, конкуренты — SwinIR (Transformer) и SeedVR2 (диффузия). Классические методы без AI — бикубическая интерполяция, общий русскоязычный термин — апскейл фото. Специализированные модели для лиц — GFPGAN и CodeFormer. Production-апскейл в Panda AI — встроенный инструмент на SeedVR2.

Частые вопросы

Чем ESRGAN отличается от Real-ESRGAN?

Базовый ESRGAN (2018) тренировался на bicubic-даунсемплах и плохо работает на реальных «грязных» фото — усиливает шум и JPEG-артефакты. Real-ESRGAN (2021) тренировался на сложной синтетической деградации (шум, blur, sinc-фильтры). Архитектура почти та же, разница в тренировке.

Можно ли использовать ESRGAN бесплатно?

Да, код под Apache 2.0 на GitHub (xinntao/ESRGAN). Есть веса для anime, photo, manga, сотни fine-tuned версий в моддинг-сообществах. Real-ESRGAN тоже Apache 2.0 — встраивается в коммерческие продукты.

В каком разрешении работает ESRGAN?

Базовая модель тренирована на патчах 96×96 → 384×384 (×4). На больших фото применяется tile-based подход: нарезка на пересекающиеся плитки, апскейл каждой, сшивка с blending. Это даёт почти бесконечное входное разрешение ценой времени.

Стоит ли использовать ESRGAN в 2026?

Для серьёзных задач — нет, лучше SeedVR2 или Real-ESRGAN. Базовый ESRGAN актуален для текстур ретро-игр и ситуаций, где нужна лёгкая модель 17 МБ на слабом железе.

25 ₽ welcome бонус

Создайте фото с ИИ
за 30 секунд

AI-фотосессия по шаблону, генерация изображений нейросетью или обработка вашего фото — удаление фона, апскейл до 1440p, восстановление лиц. 10 ₽/день бесплатно без регистрации, +25 ₽ welcome бонусом — хватит на 125 удалений фона. Без карты, без подписки, без watermark.

ESRGAN — нейросеть для апскейла фото в 4 раза | Глоссарий PhotoPanda