SeedVR2

SeedVR2 — one-step diffusion модель для апскейла видео и фото от ByteDance, опубликована на ICLR 2026. Использует flash-attention 2 и tiled VAE для работы с большими разрешениями.

SeedVR2 — диффузионная нейросеть для апскейла видео и изображений от команды ByteDance Seed, опубликованная на ICLR 2026 (статья «SeedVR: Seeding the Future for Video Restoration at Scale»). Модель размером 3 миллиарда параметров обеспечивает state-of-the-art качество апскейла при разумных вычислительных требованиях.

Что такое апскейл через диффузию

Классические апскейлеры (bicubic, Lanczos) только интерполируют — «додумывают» пиксели по соседям, не создавая новых деталей. ESRGAN (2018) и его производные (Real-ESRGAN, BSRGAN) применяют генеративные модели: GAN обучается восстанавливать высокочастотные детали по паре low-res → high-res. Качество лучше, но GAN страдает артефактами (hazing, ringing, неестественные текстуры).

Диффузионные апскейлеры (SeedVR, Stable Diffusion x4 Upscaler, Pasd) используют принципиально иной подход: они итеративно уточняют изображение через обращение процесса диффузии. Это даёт более естественные текстуры и отсутствие GAN-артефактов, но требует больше шагов вывода.

Архитектура SeedVR2

SeedVR2 — one-step diffusion модель: вместо 20–50 шагов стандартного DDPM использует единственный шаг с rectified flow sampling. Это возможно благодаря consistency distillation от многошаговой teacher-модели. Результат: скорость как у GAN-апскейлеров, качество как у диффузионных.

  • Backbone: DiT (Diffusion Transformer) 3B параметров
  • VAE: tiled VAE с перекрытием тайлов — обрабатывает изображения любого размера без OOM
  • Flash Attention 2: обязательное требование для эффективной работы на GPU
  • Conditioning: low-res изображение + масштабный фактор (2x, 4x, 8x) + текстовый промпт (опционально)

SeedVR2 vs ESRGAN vs Topaz Gigapixel

  • ESRGAN/Real-ESRGAN: 50–200 МБ, мгновенный вывод, GAN-артефакты на сложных текстурах, F-LPIPS ~0.18
  • SeedVR2 (PhotoPanda): 3B параметров (~6 ГБ VRAM), 1–3 с на 4K, F-LPIPS ~0.09, естественные текстуры
  • Topaz Gigapixel AI v7: проприетарный, $199 лицензия, F-LPIPS ~0.11, нет API
  • Magnific AI: $39/мес, облако, ~5–10 с, F-LPIPS ~0.10, нет batch API

Применение в PhotoPanda

PhotoPanda использует SeedVR2-3B для операции upscale. Доступные параметры:

  • resolution: 2x, 4x (дефолт) или конкретный размер в пикселях
  • face_enhance: true/false — дополнительный проход PMRF для восстановления лиц перед апскейлом
  • denoise_strength: 0.0–1.0, контроль агрессивности диффузионного шага

Стоимость апскейла: от 50 коп. (4x) до 2 ₽ (8x + face enhance). Время обработки 12-МП фото в 4x: ~2–4 секунды на RTX 3090.

Ограничения SeedVR2

  • Требует Flash Attention 2 — не работает на GPU до серии Ampere (RTX 3000+)
  • Минимум 8 ГБ VRAM для 4x апскейла без tiling
  • Возможна «галлюцинация» деталей: нейросеть может дорисовать несуществующие элементы (например, символы на таблицах, текст на упаковке). Для документов используйте conservative-режим
25 ₽ welcome бонус

Создайте фото с ИИ
за 30 секунд

AI-фотосессия по шаблону, генерация изображений нейросетью или обработка вашего фото — удаление фона, апскейл до 1440p, восстановление лиц. 10 ₽/день бесплатно без регистрации, +25 ₽ welcome бонусом — хватит на 125 удалений фона. Без карты, без подписки, без watermark.