Stable Diffusion
Stable Diffusion — open-source diffusion модель текст-в-изображение от Stability AI (2022). Latent diffusion в 64×64×4 пространстве, U-Net + VAE + CLIP. Основа сотен производных моделей и сервисов.
Stable Diffusion — open-source модель текст-в-изображение от Stability AI, выпущенная в августе 2022. Первая полностью открытая мощная диффузионная модель — точка перелома в индустрии генеративного ИИ. На 2026 год — основа для сотен производных моделей и сервисов: Midjourney-конкурентов, апскейлеров, inpainting-инструментов, image-to-image трансформаций.
Архитектура Stable Diffusion
SD — это latent diffusion model: диффузия выполняется не в пространстве пикселей (медленно, требовательно к памяти), а в сжатом latent space (4-канальное представление в 8 раз меньше оригинала). Компоненты:
- VAE encoder/decoder: сжимает изображение в latent (512×512 → 64×64×4) и обратно
- U-Net: основная нейросеть, выполняющая шаги денойзинга в latent space
- Text encoder (CLIP / T5): преобразует промпт в эмбеддинг, влияющий на генерацию
- Scheduler: алгоритм управления шагами диффузии (DDIM, Euler, DPM++, и др.)
Версии Stable Diffusion
- SD 1.4 / 1.5 (2022): первые публичные версии, разрешение 512×512, ~860M параметров
- SD 2.0 / 2.1 (2022–2023): 768×768, новый CLIP-encoder, спорная попытка цензуры
- SDXL (2023): 1024×1024, 3.5B параметров, гораздо лучше качество
- SD3 (2024): новая архитектура MMDiT, лучше тексты в изображениях, ~8B параметров
- SD3.5 (2024): исправление лицензионных вопросов, лучше open-source модель
- Flux.1 (2024): ответвление от команды Stable Diffusion, лучшее качество на 2024–2025
Применение в Panda AI
Сам Stable Diffusion в чистом виде не используется в Panda AI (мы фокусируемся на специализированных задачах). Но многие инструменты построены на SD-производных:
- Inpaint — на базе SD1.5 inpainting-checkpoint
- Edit photo by prompt — через GPT Image 2 или Nano Banana
- Style transfer — SDXL + IP-Adapter
Stable Diffusion vs DALL-E vs Midjourney
- Stable Diffusion: открытый код, можно дообучать, бесплатно self-hosted, разнообразие моделей
- DALL-E 3 (OpenAI): проприетарный, лучшее следование промпту, есть API
- Midjourney: проприетарный, художественный стиль «по умолчанию», только через Discord/web
- Flux.1: открытый ответ на DALL-E 3, лучше Stable Diffusion 3
Экосистема и форки
Благодаря открытости, SD породил огромную экосистему:
- AUTOMATIC1111 / ComfyUI — UI для локального использования
- LoRA / DreamBooth — дообучение под конкретный стиль или объект
- ControlNet — контроль композиции через depth/edge/pose maps
- Huggingface.co — десятки тысяч пользовательских моделей
FAQ — Stable Diffusion
Stable Diffusion бесплатен?
SD 1.x — CreativeML Open RAIL-M (открытое использование с ограничениями на вред). SDXL — аналогично. SD3 — Stability Community License (бесплатно для пользователей с доходом < $1M/год). Для коммерческого high-revenue — платная лицензия.
Можно ли использовать Stable Diffusion локально?
Да. Минимальные требования: GPU 6+ ГБ VRAM (или 16+ ГБ обычной памяти для CPU-режима). Установка через AUTOMATIC1111 или ComfyUI занимает 15–30 минут.
Stable Diffusion vs Flux — что выбрать?
На 2026 год Flux.1 даёт лучшее качество для большинства задач генерации. SD 1.5 остаётся актуальным для inpainting и быстрой генерации (меньше требований). SDXL — для художественных задач с control-сетями.