Diffusion model
Diffusion model (диффузионная модель) — класс генеративных нейросетей, обученных последовательно добавлять и затем убирать шум из изображения. Основа Stable Diffusion, DALL-E 3, GPT Image 2 и SeedVR2. Обеспечивает фотореалистичную генерацию и редактирование.
Diffusion model (диффузионная модель) — класс генеративных нейросетей, работающих через два процесса: forward diffusion (постепенное добавление Гауссова шума к изображению до полного «зашумления») и reverse diffusion (обученная нейросеть пошагово убирает шум, восстанавливая реалистичное изображение). Диффузионные модели стали доминирующей архитектурой генерации изображений в 2022–2026 годах, вытеснив GAN по качеству в большинстве задач.
Принцип работы: forward и reverse diffusion
Forward process (детерминированный): за T шагов (~1000) к оригинальному изображению добавляется нормальный шум с нарастающей дисперсией. На шаге T изображение неотличимо от чистого гауссова шума.
Reverse process (обучаемый): нейросеть предсказывает шум, добавленный на каждом шаге, и вычитает его. После T шагов обратного процесса получается «чистое» изображение. Поскольку начальный шум — случайный, каждый запуск даёт уникальный результат.
Latent Diffusion (Stable Diffusion): чтобы снизить вычислительную стоимость, диффузия происходит не в пространстве пикселей, а в сжатом латентном пространстве VAE (Variational Autoencoder) размером 64×64×4. Это ускоряет обучение и генерацию в 8–16 раз.
Ключевые диффузионные модели
| Модель | Разработчик | Год | Особенности |
|---|---|---|---|
| DDPM | Ho et al. (Google Brain) | 2020 | Первая успешная диффузионная модель для изображений |
| Stable Diffusion 1.5 | Stability AI / CompVis | 2022 | Открытый код, latent diffusion, CLIP conditioning |
| DALL-E 3 | OpenAI | 2023 | Улучшенное следование тексту, через ChatGPT |
| GPT Image 2 | OpenAI | 2025 | Image editing API, текст на изображениях |
| Flux.1 | Black Forest Labs | 2024 | Rectified flow, лучший photorealism |
| SeedVR2 | ByteDance Seed | 2026 | One-step diffusion для апскейла фото/видео |
Применение в обработке фотографий
- Апскейл: SeedVR2 в Panda AI — диффузионный апскейл фото ×2, ×4 с генерацией деталей
- Inpainting: AI-редактор — удаление объектов и замена фрагментов
- Outpainting: расширение кадра за исходные границы
- Image-to-image: изменение стиля, освещения, окружения при сохранении структуры
- Colorization: раскрашивание чёрно-белых фото
Diffusion vs GAN: в чём разница
GAN обучается через adversarial game — Generator и Discriminator конкурируют. Диффузия обучается предсказывать шум через простой регрессионный loss (MSE). Диффузия: лучшее разнообразие, отсутствие mode collapse, но медленнее при генерации. GAN: быстрее, но нестабильное обучение и ограниченное разнообразие. One-step диффузия (Consistency Models, SeedVR2) закрывает gap по скорости.
FAQ — Diffusion model
Почему диффузионные модели медленнее GAN?
Стандартная диффузия требует 20–100 шагов reverse process, каждый — прогон через всю нейросеть. GAN генерирует за один проход (forward pass). Ускорители: DDIM (50→10 шагов без значительной потери качества), LCM/Turbo (4 шага), Consistency Models и one-step методы (1 шаг).
Что такое CFG (Classifier-Free Guidance)?
CFG — техника усиления следования текстовому промпту. При значении CFG=7 модель «отходит» от безусловной генерации в сторону обусловленной промптом. Высокий CFG (12–20) — сильное следование промпту, но потеря разнообразия и перенасыщение цветов. Оптимум для большинства задач — 6–9.