Промптинг для каждой модели
Оптимизация промптов для Claude, GPT, Gemini и open-source моделей
Проблема: Вы написали отличный промпт, который идеально работает на ChatGPT, но на Claude результат хуже. На Llama системное сообщение полностью игнорируется. Почему?
Решение: Говорите на диалекте каждой модели
Каждая LLM обучена на разных данных, форматах и техниках оптимизации. Claude обучался с XML-тегами в данных, что делает теги <document>, <example> особенно эффективными. Модели GPT предпочитают markdown и при конфликте инструкций приоритизируют последние. Gemini лучше работает с мультимодальными входами в начале промпта. Open-source модели требуют явных chat templates. Использование правильного "диалекта" для каждой модели повышает качество на 20-40% по сравнению с generic промптами.
Представьте это как разговор на разных диалектах одного языка:
- 1. Изучите родной формат модели: Claude → XML-теги, GPT → markdown/JSON, Gemini → структурированные шаблоны, Open-source → chat templates со спец. токенами
- 2. Используйте уникальные фичи модели: Claude: предзаполненные ответы ассистента. GPT: function calling, JSON mode. Gemini: search grounding, image-first мультимодальность. Llama: LoRA-адаптеры.
- 3. Адаптируйте длину и структуру: Claude и Gemini хорошо работают с длинным контекстом (200K-1M). GPT лучше с фокусированными, краткими промптами. Open-source модели теряют качество после 8-32K токенов.
- 4. Тестируйте и сравнивайте: Запустите одну задачу на нескольких моделях, сравните результаты, затем оптимизируйте промпт под сильные стороны выбранной модели
Форматы промптов для каждой модели
- Claude (Anthropic): XML-теги для структуры, extended thinking, контекст 200K, предзаполненные ответы, строгое следование системному промпту
- GPT-4 / GPT-5 (OpenAI): JSON mode, function calling, предпочтителен markdown, приоритизация инструкций (последние важнее)
- Gemini (Google): Настоящая мультимодальность (изображения в начало промпта), контекст 1M+ токенов, search grounding, шаблоны промптов повышают точность на 40%
- Open-source (Llama, DeepSeek, Qwen): Обязательны chat templates (im_start/im_end), явное форматирование, короткие промпты работают лучше, формат system prompt зависит от модели
- Частая ловушка: один промпт для всех: Промпт, оптимизированный для GPT-4, может давать на 20-30% худший результат на Claude, потому что Claude ожидает XML-структуру, а не markdown-заголовки. Всегда адаптируйтесь под модель.
Интересный факт: Claude специально обучался на данных с XML-структурой, поэтому оборачивание секций промпта в теги вроде <instructions>, <context>, <output_format> значительно улучшает результаты. Модели GPT, напротив, лучше работают с markdown-заголовками (## Instructions) — использование XML на GPT на самом деле ухудшает «читаемость» для модели.
Попробуйте сами!
Изучите интерактивное сравнение ниже, чтобы увидеть, как одна и та же задача оформляется по-разному для каждой модели, и узнайте их уникальные фичи.
Промптинг для каждой модели
- • Длинный контекст (200K токенов)
- • XML-структурированные промпты
- • Extended thinking
- • Строгое следование system prompt
XML-теги: <instructions>, <context>, <examples>, <output_format>
- ✦ Предзаполненные ответы ассистента
- ✦ Парсинг XML-тегов обучен в модели
- ✦ Chain-of-thought через extended thinking
- • Function calling и tool use
- • JSON mode для структурированного вывода
- • Точное следование инструкциям
- • Последние инструкции приоритетнее
Markdown-заголовки: ## Role, ## Instructions, ## Examples, ## Output
- ✦ JSON mode (гарантированный валидный JSON)
- ✦ Function/tool calling API
- ✦ Structured Outputs schema
- • Огромный контекст (1M+ токенов)
- • Нативная мультимодальность (изображения, видео, аудио)
- • Search grounding
- • Структурные шаблоны +40% точности
Структурированные шаблоны с чёткими секциями. Изображения/медиа в НАЧАЛО промпта.
- ✦ Search grounding (данные из веба в реальном времени)
- ✦ Image-first мультимодальная обработка
- ✦ Контекст 1M+ для целых кодовых баз
- • Полный локальный контроль, без затрат на API
- • Fine-tuning через LoRA/QLoRA
- • Гибкие варианты развёртывания
- • Данные не покидают ваши серверы
Chat templates со спец. токенами: <|im_start|>system, <|im_start|>user, <|im_start|>assistant
- ✦ LoRA/QLoRA fine-tuning для кастомных задач
- ✦ Квантизация для edge deployment
- ✦ Нет rate limits и ограничений использования
Создайте бесплатный аккаунт для решения челленджей
3 челленджей с AI-проверкой для этого урока
Этот урок — часть структурированного курса по LLM.
Мой путь обучения