Diffusion model

Diffusion model (диффузионная модель) — класс генеративных нейросетей, обученных последовательно добавлять и затем убирать шум из изображения. Основа Stable Diffusion, DALL-E 3, GPT Image 2 и SeedVR2. Обеспечивает фотореалистичную генерацию и редактирование.

Diffusion model (диффузионная модель) — класс генеративных нейросетей, работающих через два процесса: forward diffusion (постепенное добавление Гауссова шума к изображению до полного «зашумления») и reverse diffusion (обученная нейросеть пошагово убирает шум, восстанавливая реалистичное изображение). Диффузионные модели стали доминирующей архитектурой генерации изображений в 2022–2026 годах, вытеснив GAN по качеству в большинстве задач.

Принцип работы: forward и reverse diffusion

Forward process (детерминированный): за T шагов (~1000) к оригинальному изображению добавляется нормальный шум с нарастающей дисперсией. На шаге T изображение неотличимо от чистого гауссова шума.

Reverse process (обучаемый): нейросеть предсказывает шум, добавленный на каждом шаге, и вычитает его. После T шагов обратного процесса получается «чистое» изображение. Поскольку начальный шум — случайный, каждый запуск даёт уникальный результат.

Latent Diffusion (Stable Diffusion): чтобы снизить вычислительную стоимость, диффузия происходит не в пространстве пикселей, а в сжатом латентном пространстве VAE (Variational Autoencoder) размером 64×64×4. Это ускоряет обучение и генерацию в 8–16 раз.

Ключевые диффузионные модели

Модель Разработчик Год Особенности
DDPM Ho et al. (Google Brain) 2020 Первая успешная диффузионная модель для изображений
Stable Diffusion 1.5 Stability AI / CompVis 2022 Открытый код, latent diffusion, CLIP conditioning
DALL-E 3 OpenAI 2023 Улучшенное следование тексту, через ChatGPT
GPT Image 2 OpenAI 2025 Image editing API, текст на изображениях
Flux.1 Black Forest Labs 2024 Rectified flow, лучший photorealism
SeedVR2 ByteDance Seed 2026 One-step diffusion для апскейла фото/видео

Применение в обработке фотографий

  • Апскейл: SeedVR2 в Panda AI — диффузионный апскейл фото ×2, ×4 с генерацией деталей
  • Inpainting: AI-редактор — удаление объектов и замена фрагментов
  • Outpainting: расширение кадра за исходные границы
  • Image-to-image: изменение стиля, освещения, окружения при сохранении структуры
  • Colorization: раскрашивание чёрно-белых фото

Diffusion vs GAN: в чём разница

GAN обучается через adversarial game — Generator и Discriminator конкурируют. Диффузия обучается предсказывать шум через простой регрессионный loss (MSE). Диффузия: лучшее разнообразие, отсутствие mode collapse, но медленнее при генерации. GAN: быстрее, но нестабильное обучение и ограниченное разнообразие. One-step диффузия (Consistency Models, SeedVR2) закрывает gap по скорости.

FAQ — Diffusion model

Почему диффузионные модели медленнее GAN?

Стандартная диффузия требует 20–100 шагов reverse process, каждый — прогон через всю нейросеть. GAN генерирует за один проход (forward pass). Ускорители: DDIM (50→10 шагов без значительной потери качества), LCM/Turbo (4 шага), Consistency Models и one-step методы (1 шаг).

Что такое CFG (Classifier-Free Guidance)?

CFG — техника усиления следования текстовому промпту. При значении CFG=7 модель «отходит» от безусловной генерации в сторону обусловленной промптом. Высокий CFG (12–20) — сильное следование промпту, но потеря разнообразия и перенасыщение цветов. Оптимум для большинства задач — 6–9.

25 ₽ welcome бонус

Создайте фото с ИИ
за 30 секунд

AI-фотосессия по шаблону, генерация изображений нейросетью или обработка вашего фото — удаление фона, апскейл до 1440p, восстановление лиц. 10 ₽/день бесплатно без регистрации, +25 ₽ welcome бонусом — хватит на 125 удалений фона. Без карты, без подписки, без watermark.