IP-Adapter
Image Prompt Adapter — лёгкий адаптер для диффузионных моделей, позволяющий задавать стиль и содержание не текстом, а reference-изображением. Опубликован Tencent AI Lab в августе 2023 года. Размер — около 22 МБ, работает со Stable Diffusion и Flux.
Определение IP-Adapter
IP-Adapter (Image Prompt Adapter) — модуль, добавляющий в диффузионную модель второй путь кондишена: помимо текста, модель получает эмбеддинг reference-изображения. Опубликован Tencent AI Lab в августе 2023 (Ye, Zhang, Liu et al., arXiv:2308.06721). Принцип: исходное фото прогоняется через CLIP Image Encoder, эмбеддинг проецируется в пространство текстовых эмбеддингов SD через лёгкий адаптер, дальше работает обычное cross-attention U-Net.
Архитектурно — около 22 МБ дополнительных весов, decoupled cross-attention для раздельной обработки текста и изображения. Принципиальное отличие от img2img: модель видит не зашумлённую копию reference, а семантический эмбеддинг — копирует смысл и стиль, а не пиксели.
Варианты и применение
- IP-Adapter base — копирует общий стиль (цвет, фактура, освещение).
- IP-Adapter Plus — глубже копирует детали, лучше с лицами.
- IP-Adapter FaceID — InsightFace для эмбеддинга лица, копирует идентичность с одного фото без дообучения. К 2026 году FaceID Plus v2 конкурентоспособен с натренированной LoRA при гораздо меньших затратах времени.
- IP-Adapter SDXL / Flux — отдельные версии под новые базовые модели.
Применение в Stable Diffusion через ComfyUI / AUTOMATIC1111: базовая модель + IP-Adapter weights + CLIP Image Encoder. На вход — reference-фото и текстовый промпт. Параметр weight регулирует силу референса (0.4–0.8 типично). Можно комбинировать с ControlNet: FaceID для лица + OpenPose для позы = «конкретный человек в заданной позе и одежде».
Плюс перед LoRA — мгновенность: не нужно собирать датасет и ждать 30 минут на RTX 4090. Минус — точность копирования ниже, чем у хорошей LoRA, особенно на мелких чертах лица.
Связанные концепции
IP-Adapter — представитель методов референс-кондишена вместе с T2I-Adapter и Reference-Only ControlNet. Обычно используется параллельно с ControlNet (структура) и LoRA (стилизация). Эффективность зависит от качества reference: для портретов разумно сначала очистить исходник через восстановление лиц и удаление фона, чтобы CLIP Encoder не считывал шум. Работает только с открытыми весами — у Midjourney и DALL-E 3 свои внутренние reference-механизмы.
Частые вопросы
Чем IP-Adapter отличается от img2img?
img2img стартует денойз с зашумлённой копии — композиция привязана к исходнику. IP-Adapter передаёт лишь семантический эмбеддинг (стиль, цвет, общую идею), сохраняя свободу композиции — можно сгенерировать «такой же стиль, но другой объект в другой позе».
FaceID лучше LoRA для копирования лица?
Не лучше, но проще и быстрее. FaceID Plus v2 даёт хорошую узнаваемость с 1–3 фото без обучения. Натренированная LoRA на 30 фото точнее на сложных ракурсах и эмоциях, но требует датасета и 30+ минут GPU.
Можно ли подать несколько референсов?
Да, IP-Adapter поддерживает batch reference — на вход кладётся 2–5 фото, эмбеддинги усредняются. Так делают «усреднённый стиль» художника или объединяют черты двух лиц.
Работает ли IP-Adapter с Flux.1?
Да, есть отдельная версия (X-Labs, ноябрь 2024). Веса несовместимы с SD/SDXL — нужны отдельные. Качество переноса стиля на Flux заметно выше за счёт более сильной базы.