SeedVR2
SeedVR2 — one-step diffusion модель для апскейла видео и фото от ByteDance, опубликована на ICLR 2026. Использует flash-attention 2 и tiled VAE для работы с большими разрешениями.
SeedVR2 — диффузионная нейросеть для апскейла видео и изображений от команды ByteDance Seed, опубликованная на ICLR 2026 (статья «SeedVR: Seeding the Future for Video Restoration at Scale»). Модель размером 3 миллиарда параметров обеспечивает state-of-the-art качество апскейла при разумных вычислительных требованиях.
Что такое апскейл через диффузию
Классические апскейлеры (bicubic, Lanczos) только интерполируют — «додумывают» пиксели по соседям, не создавая новых деталей. ESRGAN (2018) и его производные (Real-ESRGAN, BSRGAN) применяют генеративные модели: GAN обучается восстанавливать высокочастотные детали по паре low-res → high-res. Качество лучше, но GAN страдает артефактами (hazing, ringing, неестественные текстуры).
Диффузионные апскейлеры (SeedVR, Stable Diffusion x4 Upscaler, Pasd) используют принципиально иной подход: они итеративно уточняют изображение через обращение процесса диффузии. Это даёт более естественные текстуры и отсутствие GAN-артефактов, но требует больше шагов вывода.
Архитектура SeedVR2
SeedVR2 — one-step diffusion модель: вместо 20–50 шагов стандартного DDPM использует единственный шаг с rectified flow sampling. Это возможно благодаря consistency distillation от многошаговой teacher-модели. Результат: скорость как у GAN-апскейлеров, качество как у диффузионных.
- Backbone: DiT (Diffusion Transformer) 3B параметров
- VAE: tiled VAE с перекрытием тайлов — обрабатывает изображения любого размера без OOM
- Flash Attention 2: обязательное требование для эффективной работы на GPU
- Conditioning: low-res изображение + масштабный фактор (2x, 4x, 8x) + текстовый промпт (опционально)
SeedVR2 vs ESRGAN vs Topaz Gigapixel
- ESRGAN/Real-ESRGAN: 50–200 МБ, мгновенный вывод, GAN-артефакты на сложных текстурах, F-LPIPS ~0.18
- SeedVR2 (PhotoPanda): 3B параметров (~6 ГБ VRAM), 1–3 с на 4K, F-LPIPS ~0.09, естественные текстуры
- Topaz Gigapixel AI v7: проприетарный, $199 лицензия, F-LPIPS ~0.11, нет API
- Magnific AI: $39/мес, облако, ~5–10 с, F-LPIPS ~0.10, нет batch API
Применение в PhotoPanda
PhotoPanda использует SeedVR2-3B для операции upscale. Доступные параметры:
resolution:2x,4x(дефолт) или конкретный размер в пикселяхface_enhance:true/false— дополнительный проход PMRF для восстановления лиц перед апскейломdenoise_strength: 0.0–1.0, контроль агрессивности диффузионного шага
Стоимость апскейла: от 50 коп. (4x) до 2 ₽ (8x + face enhance). Время обработки 12-МП фото в 4x: ~2–4 секунды на RTX 3090.
Ограничения SeedVR2
- Требует Flash Attention 2 — не работает на GPU до серии Ampere (RTX 3000+)
- Минимум 8 ГБ VRAM для 4x апскейла без tiling
- Возможна «галлюцинация» деталей: нейросеть может дорисовать несуществующие элементы (например, символы на таблицах, текст на упаковке). Для документов используйте conservative-режим