UDM10 (PSNR)
25.61 dBPeak Signal-to-Noise Ratio на бенчмарке real-world video UDM10. Чем выше, тем ближе к референсу. Лучший результат среди open-source апскейлеров.
Источник: arxiv.org/abs/2506.05301 · 2025-06-05
SOTA-апскейлер фото и видео нейросетью от ByteDance. Диффузионный апскейл до 4K за один шаг, лучшая работа с лицами, текстом и AI-генерациями. Apache 2.0.
Результаты из известных систем оценки и независимых leaderboard'ов. Цифры берутся из официальных публикаций разработчика и публичных бенчмарков.
Peak Signal-to-Noise Ratio на бенчмарке real-world video UDM10. Чем выше, тем ближе к референсу. Лучший результат среди open-source апскейлеров.
Источник: arxiv.org/abs/2506.05301 · 2025-06-05
Learned Perceptual Image Patch Similarity на UDM10 — оценка восприятия человеком. Чем ниже, тем лучше.
Источник: arxiv.org/abs/2506.05301 · 2025-06-05
Structural Similarity Index Measure на бенчмарке SPMCS — структурное сходство с референсом, оценивает сохранение текстур и краёв.
Источник: arxiv.org/abs/2506.05301 · 2025-06-05
Perceptual-метрика на наборе YouHQ40 (высококачественное YouTube-видео) — апскейл без артефактов на сложных динамичных сценах.
Источник: arxiv.org/abs/2506.05301 · 2025-06-05
No-reference Multi-Scale Image Quality на бенчмарке для AI-генерированных видео. Уровень профессиональной съёмки.
Источник: arxiv.org/abs/2506.05301 · 2025-06-05
Natural Image Quality Evaluator — оценка естественности картинки без референса. Чем ниже, тем меньше характерных «AI-артефактов».
Источник: arxiv.org/abs/2506.05301 · 2025-06-05
SeedVR2-3B — открытая диффузионная нейросеть для восстановления и увеличения разрешения фото и видео. Разработана командой ByteDance Seed (создатели Doubao и Seedream), paper опубликован на arXiv:2506.05301 в июне 2025 года и принят на ICLR 2026.
Главная инновация — adversarial post-training: после базового претрейна на диффузионном лоссе модель доводят на GAN-цели, что сжимает 20-шаговый процесс денойзинга до одного шага без потери качества. Поэтому SeedVR2 в десятки раз быстрее классических диффузионных апскейлеров и работает с фото и видео единым пайплайном. По задаче «апскейл видео нейросетью» — это лучший open-source инструмент на 2026 год.
Что важно знать о качестве, скорости и требованиях к железу.
Diffusion transformer. Есть также вариант на 7B — дороже, но выигрывает на премиум-контенте.
Лучший результат среди open-source апскейлеров на real-world video. Real-ESRGAN — ~24.3 dB.
Adversarial post-training сжимает многошаговый процесс. В 10× быстрее классических диффузионных моделей.
Любое коммерческое использование, перепродажа, форки без согласований и роялти.
Шесть способностей, ради которых SeedVR2 берут вместо Real-ESRGAN, GFPGAN и Topaz Video AI.
Вход 720p или 1080p — выход 4K (3840×2160) с темпоральной согласованностью. Лица не «прыгают», объекты не пульсируют между кадрами.
В отличие от GFPGAN, не «полирует» кожу до пластика — поры, морщины, индивидуальные особенности остаются. Естественный результат на портретах любого возраста.
Вывески, чеки, надписи на упаковке, LED-индикаторы — реконструируются без размытия и искажения букв. Критично для маркетплейс-карточек.
Специально дотренирован на AIGC-деградациях — типичные артефакты SD/Flux/Midjourney очищаются и переводятся в 4K без характерных шумов.
Размер окна внимания подстраивается под входное разрешение — нет «лесенок» и тайл-швов на крупных кадрах. Работает от 480p до 4K в одной модели.
Adversarial post-training сжимает 20-шаговый процесс до одного. На RTX 4090 — 4–8 секунд на фото 4K, на видео 1080p — 30–60 сек за 10 секунд ролика.
Wordstat показывает запросы «seedvr2 vs topaz video ai» — собрали сравнение по ключевым параметрам.
| Параметр | Эта модель | Topaz Video AI | Real-ESRGAN | GFPGAN |
|---|---|---|---|---|
| Год / архитектура | 2025, diffusion DiT 3B | 2023, GAN-based | 2021, GAN-based | 2021, GAN faces |
| PSNR на UDM10 | 25.61 dB | ~25.1 dB | ~24.3 dB | Только лица |
| Качество лиц | Естественное | Хорошо | Пластиковая кожа | Полировка кожи |
| Текст и шрифты | Читаемые | Читаемые | Размытые | Не работает |
| Видео | Поддерживает | Лидер рынка | Только фото | Только лица |
| Лицензия | Apache 2.0 | $199 + $99/год | Open-source | Open-source |
| Доступ из РФ | Без ограничений | Сложно оплатить | Без ограничений | Без ограничений |
Для апскейла видео в РФ с открытой лицензией — SeedVR2. Topaz Video AI — лидер по UX, но проблема с оплатой из России. Real-ESRGAN — быстрее, но хуже на лицах и тексте.
Три рабочих способа: через ComfyUI с готовой нодой, локально через CLI и через готовый веб-сервис.
Форматы: MP4, MOV, WebM для видео; JPG, PNG, WebP, HEIC для фото. Размер — до 200 МБ за файл. Никакой обязательной регистрации для тестовых запросов.
2×, 4× или 8× от исходника. Типовые сценарии: 720p → 4K, 1080p → 4K, 480p → 1080p. Модель сама подберёт adaptive window attention под разрешение.
Фото 4K — 4–8 секунд на RTX 4090. Видео 1080p длиной 10 секунд — 30–60 секунд GPU-времени. Прогресс отображается в реальном времени с превью кадра.
Готовый файл с восстановленным разрешением и сохранённой темпоральной согласованностью. Опционально — пакетный ZIP-архив для нескольких файлов.
Эти приёмы повышают качество финального результата на сложных кадрах — особенно на видео и AI-генерациях.
Оптимальный диапазон — 2×–4×. На 8× появляются артефакты галлюцинации, потому что модель достраивает слишком много отсутствующих деталей.
Модель 7B немного выигрывает на бенчмарках, но требует в 2,3× больше VRAM и работает медленнее. Для 95% задач 3B-чекпоинт оптимален.
Для роликов >5 минут разбивайте на сегменты по 30–60 секунд и собирайте обратно. Иначе GPU-память переполняется и качество страдает.
Для Midjourney/Flux картинок включайте AIGC-режим — модель специально дотренирована на типичных артефактах диффузионных генераций.
На очень мелких лицах (<64×64 пикселей) сначала CodeFormer, затем SeedVR2 для общей сцены. Так сохраняется индивидуальность.
Для RTX 3060 / 4070 (12 ГБ) есть Q4, Q8 и FP8 квантованные варианты от сообщества. Потеря качества минимальна, скорость выше.
Реальные сценарии использования модели — от продуктовой съёмки и маркетплейсов до семейных фотосессий и художественных проектов.
Превратите смартфон-фото 1080p в 4K-карточки Wildberries и Ozon: ИИ сохранит этикетки, швы ткани, фактуру материала и текст на упаковке.
Сканы плёночных снимков 1960–1990-х получают резкость и детализацию: лица, глаза, причёски — без «пластикового» эффекта GFPGAN.
SeedVR2 специально дотренирована на AIGC-деградациях — типовые артефакты SD/Flux корректно очищаются и переводятся в 4K.
Запись Zoom-интервью 720p превращается в 4K с темпоральной согласованностью: лица, текст, эмблемы — без мерцания и прыжков.
Превращение смартфонного снимка в постер 6×3 м для билборда. Шрифты, лого, текстуры металла и стекла сохраняются.
Когда исходники потеряны и остался только превью 800×600 — SeedVR2 восстанавливает 4K для нового сезона рекламной кампании.
Скриншоты приложений и сайтов в маленьком разрешении: текст, иконки, скруглённые углы — реконструируются без замыливания.
Старые VHS-оцифровки, домашние видео 240p и записи семинаров 480p получают 1080p–4K без типичной для классики «акварельной» размытости.
| Тариф | Параметры | Цена |
|---|---|---|
| Локально на своём GPU | Apache 2.0 · веса с GitHub / Hugging Face | Бесплатно |
| Облачный GPU (Selectel, Cloud.ru) | RTX 4090 24 ГБ · аренда по часам | от 80 ₽/ час |
| Hugging Face Spaces | Бесплатное демо · с очередями в пиковые часы | Бесплатно |
| ComfyUI с нодой SeedVR2 | Установка через ComfyUI Manager | Бесплатно |
| REST API (готовый продакшен) | См. карточку справа · от 1 ₽ за апскейл | от 1 ₽/ фото |
| Топовая модель SeedVR2-7B | Лучше на премиум-контенте · нужен H100 | +50–70%к 3B |
Это open-source проект ByteDance Seed под лицензией Apache 2.0 — никаких санкционных ограничений. GitHub-репозиторий (ByteDance-Seed/SeedVR) и Hugging Face открываются из РФ напрямую. Веса можно скачать, развернуть на своём GPU и использовать бесплатно. Лицензия Apache 2.0 прямо разрешает коммерческое применение в любой юрисдикции, включая Россию и Беларусь.
Выбирайте по инфраструктуре: от прямого запуска на своей видеокарте до готового веб-сервиса с оплатой в рублях.
Скачать веса с GitHub или Hugging Face, поставить PyTorch с CUDA 12.1+, flash-attention 2.5.9. Нужна RTX 3090 / 4090 (24 ГБ) для FP16 или GGUF-квантование для 12 ГБ. Бесплатно навсегда.
В ComfyUI Manager есть кастом-узел SeedVR2 VideoUpscaler — устанавливается в один клик. Подходит для дизайнеров и видеомейкеров, уже работающих с workflow-редактором.
Selectel, Cloud.ru, Yandex Cloud — аренда RTX 4090 или A100 от 80 ₽ в час. Подходит для одноразовых проектов реставрации и пакетной обработки видео-архивов.
Если нужен готовый веб-инструмент с оплатой в рублях — SeedVR2-3B встроен в инструмент «Апскейл»: загружаете фото или видео, через 5–60 секунд получаете 4K-результат. Без VPN, без валютных карт, ЮKassa с картами МИР и СБП. Закрывающие документы для ИП и ООО — по запросу. Free tier — 3 пробных фото в день.
PhotoPanda работает из РФ без VPN, оплата в рублях через ЮKassa. Если SeedVR2-3B не подключена напрямую — у нас есть аналоги в каталоге.
Каталог моделейОтветы на популярные вопросы по цене, доступу из России, лицензии, возможностям и сравнению с конкурентами.
Сами веса бесплатны — лицензия Apache 2.0 разрешает любое использование, в том числе коммерческое. Чекпоинт скачивается с Hugging Face (ByteDance-Seed/SeedVR2-3B) без регистрации и платежей.
Финансовые расходы возникают только за инфраструктуру:
| Сценарий | Цена | Когда выбирать |
|---|---|---|
| Локально на своём GPU | Бесплатно | Регулярная обработка, есть RTX 3090/4090 |
| Облачный GPU (Selectel, Cloud.ru) | от 80 ₽/час RTX 4090 | Одноразовые проекты, нет своего железа |
| Hugging Face Spaces | Бесплатно | Тест на 1–3 видео, без срочности |
| Готовый веб-сервис | от 1 ₽ за фото | Нужно прямо сейчас, без админа |
На пакете в 1000 фото 4K себестоимость инференса на собственной RTX 3090 — около 0,15 ₽ за кадр (электричество + амортизация). На облачном GPU — около 0,20 ₽. Готовый сервис включает GPU + постобработку + хранение результата + REST API. Для видео 1080p ориентируйтесь на 5–10 ₽ за секунду в готовых сервисах.
Да, полностью доступна. Это open-source проект ByteDance Seed под лицензией Apache 2.0 — никаких санкционных ограничений. GitHub-репозиторий (github.com/ByteDance-Seed/SeedVR) и Hugging Face (ByteDance-Seed/SeedVR2-3B) открываются из РФ напрямую без VPN.
Лицензия Apache 2.0 прямо разрешает коммерческое использование в России и Беларуси без согласований с автором.
Hugging Face иногда ограничивает массовую загрузку крупных весов из определённых IP-диапазонов — если столкнулись с timeout, поможет кратковременный VPN, зеркало в Telegram-каналах сообщества (поиск «SeedVR2 RU» или «ComfyUI русский») или прямая загрузка с GitHub Releases.
Для облачной аренды GPU в РФ работают Selectel, Cloud.ru, Yandex Cloud — все принимают рубли, выдают акт и УПД для ИП и ООО. Также есть готовые веб-сервисы с оплатой через ЮKassa в рублях с карт МИР и СБП.
Topaz Video AI — коммерческий лидер рынка апскейла видео. Цена — $199 за бессрочную лицензию + $99 в год за обновления. UX отличный: красивый GUI, batch-режим, drag-and-drop.
SeedVR2-3B — open-source альтернатива с сопоставимым качеством на большинстве задач, а на лицах и AI-генерациях обычно выигрывает.
Где SeedVR2 сильнее:
Где Topaz Video AI сильнее:
Вывод: если важен UX и есть валютная карта — Topaz. Если нужна свобода, доступ из РФ и API для интеграции — SeedVR2.
Локальный запуск занимает 30–60 минут. Пошаговая инструкция:
pip install flash-attn==2.5.9.post1 --no-build-isolation — это критично для скорости.pip install -v --disable-pip-version-check --no-cache-dir --no-build-isolation --config-settings "--build-option=--cpp_ext" --config-settings "--build-option=--cuda_ext" git+https://github.com/NVIDIA/apex.gitМинимальные требования:
Для продакшена оберните модель в Triton Inference Server и FastAPI, добавьте очередь BullMQ или Celery. Без DevOps-опыта это 2–3 дня.
Да, SeedVR2-3B — полностью бесплатная open-source модель под лицензией Apache 2.0. Никаких подписок, лимитов запросов, ограничений по объёму или коммерческому доходу.
Что входит в «бесплатно»:
Единственное обязательство — сохранять копию лицензии Apache 2.0 и упоминание авторства ByteDance Seed в дистрибутиве продукта. Это стандартное требование любой Apache-лицензии.
Финансовые расходы возникают только за инфраструктуру: облачный GPU (~80 ₽/час) или электричество для собственной видеокарты RTX 3090/4090. Если своего железа нет — попробуйте Hugging Face Spaces (бесплатное демо с очередями) или готовые веб-сервисы от 1 ₽ за фото.
SeedVR2 — это модель для пикселей, не для текста, поэтому понятие «русский язык» к ней не относится напрямую. Модель работает с RGB-кадрами на входе и выдаёт upscaled-кадры на выходе.
Что работает на русскоязычных проектах:
Если на видео/фото есть русский текст (вывески, чеки, упаковка, субтитры) — SeedVR2 корректно реконструирует кириллицу при апскейле без искажений. Это плюс по сравнению с Real-ESRGAN, который иногда «съедает» мелкие шрифты.
Поддержка в инструментах: ComfyUI имеет русский язык в Manager, Hugging Face Spaces — на английском, российские веб-сервисы — на русском с поддержкой по email и в Telegram. ByteDance не выпускает отдельной русской версии модели — она работает одинаково для всех языков.
Да, лицензия Apache 2.0 прямо разрешает коммерческое использование, перепродажу, модификацию и встраивание в любые продукты без ограничений по объёму, доходу или географии.
Что разрешено:
Единственное обязательство — сохранить копию лицензии Apache 2.0 и упоминание авторства ByteDance Seed в дистрибутиве. ByteDance не претендует на роялти, не требует регистрации использования и не отслеживает применение.
Для enterprise-внедрений (банки, госзаказ, медицина) Apache 2.0 — одна из самых дружественных лицензий: проходит проверку службы безопасности проще, чем GPL или AGPL. Не нужны согласования с автором, не нужны патентные взаимные лицензии. Если есть юридические сомнения — можно написать команде ByteDance Seed через GitHub Issues.
«Без потери качества» — относительное понятие. Любой апскейл добавляет пиксели, которых не было в оригинале, поэтому в строгом смысле модель всегда «галлюцинирует» детали.
Что значит «без потери качества» на практике:
Темпоральная согласованность — соседние кадры не «прыгают», лица не меняются, объекты не пульсируют. SeedVR2 решает это через diffusion transformer с adaptive window attention.
Сохранение исходных деталей — то, что было в оригинале, не размывается и не «оптимизируется». В этом разница с GAN-апскейлерами, которые иногда «выглаживают» уникальные особенности.
Реалистичные новые детали — добавленные пиксели соответствуют физике мира, а не выдуманные паттерны. Кожа остаётся кожей, шрифты — шрифтами, металл — металлом.
Что важно для лучшего результата:
SeedVR2 на UDM10 показывает PSNR 25.61 dB и LPIPS 0.218 — это лучшие показатели среди open-source апскейлеров. Глазом результат неотличим от 4K-исходника на 95% типовых кадров.
На 2026 год SeedVR2 — лучший open-source апскейлер по совокупности качества, скорости и лицензии. Альтернативы делятся на коммерческие и открытые.
Коммерческие апскейлеры:
Open-source альтернативы:
Гибридные пайплайны:
Для премиум-результата комбинируйте: сначала CodeFormer на лицах, потом SeedVR2 на общей сцене. Это даёт +5–10% качества по perceptual-метрикам на портретах. Для AI-генераций используйте SeedVR2 в AIGC-режиме.
Вывод: для большинства задач SeedVR2 закрывает 95% потребностей. Topaz Video AI — если важен GUI и есть валютная карта.
Несколько вариантов с разным уровнем удобства и стоимости:
Готовые веб-сервисы (без своего железа):
Hugging Face Spaces «SeedVR2-3B-Image-Upscale» — бесплатное демо в браузере. Минусы: очереди в пиковые часы, ограничения на размер файлов, нет API.
Российские веб-сервисы с SeedVR2 — оплата в рублях через ЮKassa, есть API, поддержка на русском. От 1 ₽ за фото и от 5 ₽ за секунду видео 1080p.
Облачные платформы с GPU — Selectel, Cloud.ru, Yandex Cloud. Аренда RTX 4090 от 80 ₽ в час, дальше развёртываете SeedVR2 сами.
Десктоп-альтернативы:
Что важно знать:
Самый простой путь — попробовать на Hugging Face Spaces для одного теста, потом перейти на российский сервис с оплатой в рублях для регулярной работы.