Промптинг для генерации изображений
Промпты для DALL-E, Midjourney и Stable Diffusion
Проблема: Вы пишете "кошка" в генератор изображений и получаете generic, скучный клипарт-кот. Как получить конкретное изображение из вашей головы — пушистый рыжий табби в уютной библиотеке, нарисованный тёплой акварелью?
Решение: Творческое задание, а не пожелание
Написание промпта для изображения — как творческое задание дизайнеру. Ты не скажешь иллюстратору "нарисуй что-нибудь классное" — ты опишешь объект, стиль, настроение и композицию. Современные генераторы (Midjourney, DALL-E 3, Stable Diffusion) — это диффузионные модели (diffusion) text-to-image: они стартуют из случайного шума и убирают его шаг за шагом, и на каждом шаге твой текст задаёт, в какую сторону идёт это очищение от шума. Чем конкретнее и структурнее промпт, тем больше у модели ограничений и тем ближе результат к картинке у тебя в голове. Ключевая формула: Объект + Стиль + Детали + Освещение + Композиция. Каждый элемент сужает иначе бесконечное пространство возможностей до конкретного результата.
Что реально влияет на результат
Не все слова весят одинаково. Объект и стиль/медиум (фотореализм, масло, аниме, 3D-рендер) делают основную работу — они меняют изображение целиком. Освещение (lighting) — следующий по силе рычаг: "золотой час" или "драматичный боковой свет" превращают плоскую сцену во впечатляющую. Важны и два технических параметра. Negative prompts (отдельное поле в Stable Diffusion, флаг --no в Midjourney) говорят модели, чего избегать — "blurry, low quality, extra fingers, watermark" убирает самые частые артефакты. Seed (зерно) фиксирует стартовый шум, поэтому при одном и том же seed получаешь воспроизводимое изображение, которое потом можно докручивать по одному слову, а не генерировать заново каждый раз.
Компромиссы, ловушки и разбор примера
Главная ловушка — расплывчатость: "крутой дракон" даёт нового случайного дракона на каждый прогон. Обратная ловушка — перегруз: навалишь двадцать конкурирующих эпитетов, и модель усреднит их в кашу или тихо выбросит половину. Целься в несколько решающих и непротиворечивых описаний. Конкретный пример: вместо "кошка" напиши "пушистый рыжий кот-табби свернулся на стопке старых книг в уютной библиотеке, тёплый дневной свет из высокого окна, мягкая акварель, малая глубина резкости" с negative prompt "blurry, deformed, text, watermark". Та же модель, но теперь объект, сцена, освещение, медиум и композиция зафиксированы — и на выходе стабильный, попадающий в цель результат, а не безликий клипарт.
Представьте это как творческое задание для дизайнера:
- 1. Чётко опишите объект: Будьте конкретны: не "собака", а "щенок золотистого ретривера сидит в поле подсолнухов, смотрит вверх"
- 2. Выберите стиль и медиум: Фотореализм, масло, аниме, 3D-рендер, пиксель-арт — каждый стиль даёт кардинально разные результаты из одного объекта
- 3. Добавьте освещение и настроение: Золотой час, драматичные тени, мягкий рассеянный свет, неоновое свечение — освещение самый влиятельный элемент после объекта
- 4. Укажите композицию: Ракурс (крупный план, общий план), глубина резкости, правило третей — композиция направляет взгляд зрителя
- 5. Грамотно используйте negative prompts: В Stable Diffusion и Midjourney укажите, чего избежать: "blurry, low quality, extra fingers, watermark" — убирает частые артефакты
Анатомия отличного промпта для изображений
- Объект и детали: Начните с чёткого объекта, затем добавьте атрибуты: возраст, поза, выражение, одежда, окружение
- Стиль и медиум: Масло, акварель, 3D-рендер, аниме, фотореализм, пиксель-арт — стиль определяет всё настроение
- Освещение и атмосфера: Золотой час, драматический боковой свет, неоновое свечение, мягкий рассеянный — освещение превращает обычные сцены в впечатляющие
- Композиция и камера: Крупный план, широкий угол, вид сверху, правило третей, боке, глубина резкости — направляют взгляд зрителя
- Частая ловушка: расплывчатые промпты: "Крутой дракон" даёт случайные результаты. "Нефритово-зелёный дракон на вулканической скале на закате, кинематографичное освещение, в стиле Greg Rutkowski" — стабильный впечатляющий результат
Интересный факт: DALL-E 3 автоматически переписывает ваш промпт за кулисами — когда вы пишете "крутой дракон", он внутренне расширяет это до "величественный дракон с переливающейся чешуёй, на горной вершине на закате, стиль фэнтези-арт, высокая детализация." Можно попросить ChatGPT показать расширенный промпт, чтобы учиться на нём.
Попробуйте сами!
Используй интерактивный конструктор ниже, чтобы собрать профессиональный промпт по шагам и увидеть, как каждый элемент меняет результат.
Промптинг для генерации изображений
пушистый рыжий кот, фотореалистичный, 8K, свет золотого часа, крупный план, портрет
Частые вопросы
Как написать хороший промпт для генерации изображений?
Используй формулу Объект + Стиль + Детали + Освещение + Композиция. Сначала чётко опиши главный объект, затем добавь стиль или медиум (фотореализм, масло, аниме, 3D-рендер), потом освещение (золотой час, мягкий свет), ракурс и детали. Чем конкретнее описание, тем ближе результат к задумке. Расплывчатое «крутой дракон» даёт случайный результат, а детальное описание — стабильный и предсказуемый.
Что такое negative prompt и зачем он нужен?
Negative prompt — это список того, чего модель НЕ должна добавлять в изображение. Типичные значения: «blurry, low quality, extra fingers, watermark, deformed». Это убирает самые частые артефакты — размытость, лишние пальцы, водяные знаки. В Stable Diffusion для этого есть отдельное поле, а в Midjourney используется параметр --no (например, --no text).
Чем отличаются Midjourney, DALL-E 3 и Stable Diffusion?
Все три — диффузионные модели text-to-image, но с разным характером. Midjourney даёт самый художественный и «красивый» результат из коробки и работает через Discord. DALL-E 3 встроен в ChatGPT, хорошо понимает естественный язык и сам переписывает промпт. Stable Diffusion бесплатна и запускается локально, даёт максимум контроля (seed, negative prompt, веса), но требует более детальной настройки.
Почему генератор рисует не то, что я прошу?
Чаще всего причина — расплывчатый или перегруженный промпт. Слишком общее описание («кошка») оставляет модели свободу, а слишком много противоречивых эпитетов модель усредняет в кашу или часть просто игнорирует. Решение: несколько решающих непротиворечивых деталей, явный стиль и освещение, negative prompt для нежелательных элементов и фиксированный seed, чтобы докручивать результат по одному слову.
Создайте бесплатный аккаунт для решения челленджей
3 челленджей с AI-проверкой для этого урока
Этот урок — часть структурированного курса по LLM.
Мой путь обучения