Как диффузионные модели генерируют изображения из текста?

Диффузионные модели начинают с случайного шума и итеративно удаляют его за 20-50 шагов с помощью нейросети U-Net. CLIP text encoder преобразует текстовый промпт в embedding, который направляет процесс удаления шума, чтобы финальное изображение соответствовало описанию.

Что такое latent space в диффузионных моделях и почему он важен?

Latent space — это сжатое представление, где изображения кодируются как меньшие тензоры (например, 64x64 вместо 512x512 пикселей). Работа в latent space делает диффузию в 64 раза быстрее с минимальной потерей качества — это ключевая инновация Stable Diffusion.

Что делает classifier-free guidance scale при генерации изображений?

Guidance scale контролирует, насколько точно сгенерированное изображение следует текстовому промпту. Низкие значения (1-3) дают разнообразные, но слабо связанные с промптом изображения. Высокие значения (7-15) — точное следование промпту, но возможны артефакты. Оптимальный диапазон — 7-9.

Урок 11

Диффузионные модели

DALL-E, Stable Diffusion, Midjourney

Проблема: Вы пишете "кот-астронавт в космосе, стиль масляной живописи" в DALL-E и получаете потрясающее изображение за секунды. Но как? AI не искал в базе картин — он создал нечто новое. Как диффузионные модели превращают случайный шум в связные изображения по текстовому описанию?

Решение: Диффузия — Скульптура изображений из шума

Диффузионные модели работают по принципу двух процессов. Прямая диффузия постепенно добавляет гауссов шум к изображению, пока оно не станет чистым шумом. Обратная диффузия — обученная нейросеть U-Net, предсказывающая и удаляющая шум на каждом шаге. Вся работа происходит в latent space — сжатом пространстве, в 64 раза меньше оригинала, что делает вычисления в 64 раза быстрее. Текстовый промпт превращается в направляющий вектор через CLIP, а classifier-free guidance определяет, насколько точно модель следует описанию.

Представьте это как скульптора, получившего глыбу мрамора (случайный шум) и описание от заказчика. Шаг за шагом скульптор отсекает лишний мрамор, ориентируясь на описание. Каждый проход раскрывает больше деталей, пока не появится финальная скульптура:

1. Текст кодируется через CLIP: Текстовый промпт преобразуется в числовой вектор (embedding) через CLIP text encoder, захватывая семантический смысл для направления генерации
2. Начало с случайного шума: Генерация начинается с чистого случайного шума в latent space — сжатом представлении, в 64 раза меньше полного изображения
3. U-Net удаляет шум шаг за шагом: На каждом из 20-50 шагов U-Net предсказывает шум и вычитает его. Каждый шаг делает изображение чётче — как скульптор, снимающий стружку
4. Декодирование в изображение: VAE decoder преобразует чистое latent-представление в полноразмерное изображение (512×512 или 1024×1024 пикселей)

Где используются диффузионные модели

Текст в изображение: DALL-E 3, Stable Diffusion, Midjourney — генерация изображений из описаний на естественном языке с потрясающим качеством и творческим контролем
Редактирование и inpainting: Редактирование отдельных частей изображения с сохранением остального — удаление объектов, смена фона, заполнение пробелов
Генерация видео: Sora, Runway, Kling — расширение диффузии на временное измерение, генерация связных видео из текстовых промптов
Частая ошибка: Guidance scale слишком высоко (>15) вызывает перенасыщение и артефакты, а не точность. Слишком низко (<3) — промпт игнорируется. Оптимум 7-9 для большинства задач. Всегда экспериментируйте перед выбором

Интересный факт: Stable Diffusion обрабатывает изображения в latent space размером всего 64×64×4 вместо полного пиксельного пространства 512×512×3. Это сжатие в 48 раз позволяет запускать на обычных GPU. VAE decoder в конце масштабирует маленький latent обратно в полное разрешение — вся "креативность" происходит в этом сжатом пространстве.

Попробуйте сами!

Исследуйте визуализацию ниже, чтобы увидеть процесс деноизинга шаг за шагом, поэкспериментировать с guidance scale и понять архитектуру latent space.

Диффузионные модели: от шума к изображению

🎨Исследователь диффузионных моделей

Наблюдайте, как шум удаляется шаг за шагом. На каждом шаге U-Net предсказывает и вычитает шум.

Шаг 0: Чистый случайный шум (T=1000)

Шум: 100%Сигнал: 0%

Попробуй сам

Интерактивное демо этой техники

Сравнение техник

Демо режим

Предзаписанные ответы

ЗадачаСреднийАнализ

Сгенерировать качественное изображение по текстовому описанию

Без техники

Промпт

Нарисуй кота.

Ответ

[Сгенерированное изображение] Размытый кот без деталей. Нейтральный фон. Непонятный стиль — ни фото, ни рисунок. Пропорции неестественные.

Токены:5/200

Время:4000ms

Качество:

С multimodal-diffusion-models

С техникой

Промпт

Фотореалистичное изображение рыжего кота, сидящего на подоконнике старого европейского дома. Мягкий утренний свет из окна, боке на заднем плане. Кот смотрит в камеру. Высокое разрешение, детализированная шерсть. Negative prompt: размытость, артефакты, неестественные пропорции. Guidance scale: 7.5, Steps: 30.

Ответ

[Сгенерированное изображение] Детализированный рыжий кот с реалистичной текстурой шерсти на подоконнике. Мягкий свет создаёт тёплую атмосферу. Боке фон с видом европейского города. Естественные пропорции и выражение.

👁️"Нарисуй кота" — слишком расплывчато. Модели нужно конкретное описание

🧠Добавляем конкретику: порода/цвет, действие, окружение, освещение

🧠Negative prompt предотвращает типичные артефакты. Guidance 7.5 — оптимальный баланс

✅Детальный промпт + правильные параметры = предсказуемый, высококачественный результат

Токены:85/200

Время:8000ms

Качество:

Почему это работает

"Нарисуй кота" даёт размытый результат. Детальное описание (стиль, сцена, освещение, ракурс) + negative prompt + оптимальный guidance scale (7.5) = предсказуемый, качественный результат.

1 / 2

Практика

Создайте бесплатный аккаунт для решения челленджей

3 челленджей с AI-проверкой для этого урока

Связанные уроки:Vision Basics Image Analysis Image Generation

Этот урок — часть структурированного курса по LLM.

Мой путь обучения

Урок 11

Диффузионные модели

DALL-E, Stable Diffusion, Midjourney

Решение: Диффузия — Скульптура изображений из шума

Представьте это как скульптора, получившего глыбу мрамора (случайный шум) и описание от заказчика. Шаг за шагом скульптор отсекает лишний мрамор, ориентируясь на описание. Каждый проход раскрывает больше деталей, пока не появится финальная скульптура:

1. Текст кодируется через CLIP: Текстовый промпт преобразуется в числовой вектор (embedding) через CLIP text encoder, захватывая семантический смысл для направления генерации
2. Начало с случайного шума: Генерация начинается с чистого случайного шума в latent space — сжатом представлении, в 64 раза меньше полного изображения
3. U-Net удаляет шум шаг за шагом: На каждом из 20-50 шагов U-Net предсказывает шум и вычитает его. Каждый шаг делает изображение чётче — как скульптор, снимающий стружку
4. Декодирование в изображение: VAE decoder преобразует чистое latent-представление в полноразмерное изображение (512×512 или 1024×1024 пикселей)

Где используются диффузионные модели

Текст в изображение: DALL-E 3, Stable Diffusion, Midjourney — генерация изображений из описаний на естественном языке с потрясающим качеством и творческим контролем
Редактирование и inpainting: Редактирование отдельных частей изображения с сохранением остального — удаление объектов, смена фона, заполнение пробелов
Генерация видео: Sora, Runway, Kling — расширение диффузии на временное измерение, генерация связных видео из текстовых промптов
Частая ошибка: Guidance scale слишком высоко (>15) вызывает перенасыщение и артефакты, а не точность. Слишком низко (<3) — промпт игнорируется. Оптимум 7-9 для большинства задач. Всегда экспериментируйте перед выбором

Попробуйте сами!

Диффузионные модели: от шума к изображению

🎨Исследователь диффузионных моделей

Наблюдайте, как шум удаляется шаг за шагом. На каждом шаге U-Net предсказывает и вычитает шум.

Шаг 0: Чистый случайный шум (T=1000)

Шум: 100%Сигнал: 0%

Попробуй сам

Интерактивное демо этой техники

Сравнение техник

Демо режим

Предзаписанные ответы

ЗадачаСреднийАнализ

Сгенерировать качественное изображение по текстовому описанию

Без техники

Промпт

Нарисуй кота.

Ответ

Токены:5/200

Время:4000ms

Качество:

С multimodal-diffusion-models

С техникой

Промпт

Ответ

👁️"Нарисуй кота" — слишком расплывчато. Модели нужно конкретное описание

🧠Добавляем конкретику: порода/цвет, действие, окружение, освещение

🧠Negative prompt предотвращает типичные артефакты. Guidance 7.5 — оптимальный баланс

✅Детальный промпт + правильные параметры = предсказуемый, высококачественный результат

Токены:85/200

Время:8000ms

Качество:

Почему это работает

1 / 2

Практика

Создайте бесплатный аккаунт для решения челленджей

3 челленджей с AI-проверкой для этого урока

Связанные уроки:Vision Basics Image Analysis Image Generation

Этот урок — часть структурированного курса по LLM.

Мой путь обучения