Диффузионные модели
DALL-E, Stable Diffusion, Midjourney
Проблема: Вы пишете "кот-астронавт в космосе, стиль масляной живописи" в DALL-E и получаете потрясающее изображение за секунды. Но как? AI не искал в базе картин — он создал нечто новое. Как диффузионные модели превращают случайный шум в связные изображения по текстовому описанию?
Решение: Диффузия — Скульптура изображений из шума
Диффузионные модели работают по принципу двух процессов. Прямая диффузия постепенно добавляет гауссов шум к изображению, пока оно не станет чистым шумом. Обратная диффузия — обученная нейросеть U-Net, предсказывающая и удаляющая шум на каждом шаге. Вся работа происходит в latent space — сжатом пространстве, в 64 раза меньше оригинала, что делает вычисления в 64 раза быстрее. Текстовый промпт превращается в направляющий вектор через CLIP, а classifier-free guidance определяет, насколько точно модель следует описанию.
Представьте это как скульптора, получившего глыбу мрамора (случайный шум) и описание от заказчика. Шаг за шагом скульптор отсекает лишний мрамор, ориентируясь на описание. Каждый проход раскрывает больше деталей, пока не появится финальная скульптура:
- 1. Текст кодируется через CLIP: Текстовый промпт преобразуется в числовой вектор (embedding) через CLIP text encoder, захватывая семантический смысл для направления генерации
- 2. Начало с случайного шума: Генерация начинается с чистого случайного шума в latent space — сжатом представлении, в 64 раза меньше полного изображения
- 3. U-Net удаляет шум шаг за шагом: На каждом из 20-50 шагов U-Net предсказывает шум и вычитает его. Каждый шаг делает изображение чётче — как скульптор, снимающий стружку
- 4. Декодирование в изображение: VAE decoder преобразует чистое latent-представление в полноразмерное изображение (512×512 или 1024×1024 пикселей)
Где используются диффузионные модели
- Текст в изображение: DALL-E 3, Stable Diffusion, Midjourney — генерация изображений из описаний на естественном языке с потрясающим качеством и творческим контролем
- Редактирование и inpainting: Редактирование отдельных частей изображения с сохранением остального — удаление объектов, смена фона, заполнение пробелов
- Генерация видео: Sora, Runway, Kling — расширение диффузии на временное измерение, генерация связных видео из текстовых промптов
- Частая ошибка: Guidance scale слишком высоко (>15) вызывает перенасыщение и артефакты, а не точность. Слишком низко (<3) — промпт игнорируется. Оптимум 7-9 для большинства задач. Всегда экспериментируйте перед выбором
Интересный факт: Stable Diffusion обрабатывает изображения в latent space размером всего 64×64×4 вместо полного пиксельного пространства 512×512×3. Это сжатие в 48 раз позволяет запускать на обычных GPU. VAE decoder в конце масштабирует маленький latent обратно в полное разрешение — вся "креативность" происходит в этом сжатом пространстве.
Попробуйте сами!
Исследуйте визуализацию ниже, чтобы увидеть процесс деноизинга шаг за шагом, поэкспериментировать с guidance scale и понять архитектуру latent space.
Наблюдайте, как шум удаляется шаг за шагом. На каждом шаге U-Net предсказывает и вычитает шум.
Шаг 0: Чистый случайный шум (T=1000)
Попробуй сам
Интерактивное демо этой техники
Сгенерировать качественное изображение по текстовому описанию
[Сгенерированное изображение] Размытый кот без деталей. Нейтральный фон. Непонятный стиль — ни фото, ни рисунок. Пропорции неестественные.
[Сгенерированное изображение] Детализированный рыжий кот с реалистичной текстурой шерсти на подоконнике. Мягкий свет создаёт тёплую атмосферу. Боке фон с видом европейского города. Естественные пропорции и выражение.
"Нарисуй кота" даёт размытый результат. Детальное описание (стиль, сцена, освещение, ракурс) + negative prompt + оптимальный guidance scale (7.5) = предсказуемый, качественный результат.
Создайте бесплатный аккаунт для решения челленджей
3 челленджей с AI-проверкой для этого урока
Этот урок — часть структурированного курса по LLM.
Мой путь обучения