Diffusion model

Diffusion model (диффузионная модель) — класс генеративных нейросетей, обученных последовательно добавлять и затем убирать шум из изображения. Основа Stable Diffusion, DALL-E 3, GPT Image 2 и SeedVR2. Обеспечивает фотореалистичную генерацию и редактирование.

Diffusion model (диффузионная модель) — класс генеративных нейросетей, работающих через два процесса: forward diffusion (постепенное добавление Гауссова шума к изображению до полного «зашумления») и reverse diffusion (обученная нейросеть пошагово убирает шум, восстанавливая реалистичное изображение). Диффузионные модели стали доминирующей архитектурой генерации изображений в 2022–2026 годах, вытеснив GAN по качеству в большинстве задач.

Принцип работы: forward и reverse diffusion

Forward process (детерминированный): за T шагов (~1000) к оригинальному изображению добавляется нормальный шум с нарастающей дисперсией. На шаге T изображение неотличимо от чистого гауссова шума.

Reverse process (обучаемый): нейросеть предсказывает шум, добавленный на каждом шаге, и вычитает его. После T шагов обратного процесса получается «чистое» изображение. Поскольку начальный шум — случайный, каждый запуск даёт уникальный результат.

Latent Diffusion (Stable Diffusion): чтобы снизить вычислительную стоимость, диффузия происходит не в пространстве пикселей, а в сжатом латентном пространстве VAE (Variational Autoencoder) размером 64×64×4. Это ускоряет обучение и генерацию в 8–16 раз.

Ключевые диффузионные модели

Модель	Разработчик	Год	Особенности
DDPM	Ho et al. (Google Brain)	2020	Первая успешная диффузионная модель для изображений
Stable Diffusion 1.5	Stability AI / CompVis	2022	Открытый код, latent diffusion, CLIP conditioning
DALL-E 3	OpenAI	2023	Улучшенное следование тексту, через ChatGPT
GPT Image 2	OpenAI	2025	Image editing API, текст на изображениях
Flux.1	Black Forest Labs	2024	Rectified flow, лучший photorealism
SeedVR2	ByteDance Seed	2026	One-step diffusion для апскейла фото/видео

Применение в обработке фотографий

Апскейл: SeedVR2 в Panda AI — диффузионный апскейл фото ×2, ×4 с генерацией деталей
Inpainting: AI-редактор — удаление объектов и замена фрагментов
Outpainting: расширение кадра за исходные границы
Image-to-image: изменение стиля, освещения, окружения при сохранении структуры
Colorization: раскрашивание чёрно-белых фото

Diffusion vs GAN: в чём разница

GAN обучается через adversarial game — Generator и Discriminator конкурируют. Диффузия обучается предсказывать шум через простой регрессионный loss (MSE). Диффузия: лучшее разнообразие, отсутствие mode collapse, но медленнее при генерации. GAN: быстрее, но нестабильное обучение и ограниченное разнообразие. One-step диффузия (Consistency Models, SeedVR2) закрывает gap по скорости.

FAQ — Diffusion model

Почему диффузионные модели медленнее GAN?

Стандартная диффузия требует 20–100 шагов reverse process, каждый — прогон через всю нейросеть. GAN генерирует за один проход (forward pass). Ускорители: DDIM (50→10 шагов без значительной потери качества), LCM/Turbo (4 шага), Consistency Models и one-step методы (1 шаг).

Что такое CFG (Classifier-Free Guidance)?

CFG — техника усиления следования текстовому промпту. При значении CFG=7 модель «отходит» от безусловной генерации в сторону обусловленной промптом. Высокий CFG (12–20) — сильное следование промпту, но потеря разнообразия и перенасыщение цветов. Оптимум для большинства задач — 6–9.

Все термины