Урок 1

Гид по выбору модели

Выбор правильной модели

Проблема: Доступны десятки LLM — GPT-5, Claude, o3, Gemini, Llama, DeepSeek и другие. Плюс reasoning-модели, которые думают перед ответом. Как выбрать правильную модель для конкретного случая использования?

Решение: Выбирай правильный инструмент под задачу

Выбор модели включает сопоставление ваших требований (скорость, стоимость, точность, возможности) с подходящей моделью. Это как выбор транспорта — иногда нужен спорткар, иногда грузовик, иногда велосипед. Используйте бенчмарки для сравнения качества и балансируйте задержку с стоимостью.

Представьте это как выбор автомобиля для разных задач:

1. Задержка < 500мс И качество критично: Используйте GPT-4o или Claude Sonnet — лучший баланс скорости и интеллекта
2. Стоимость < $0.01/запрос И простая задача: Используйте GPT-4o Mini или Claude Haiku — в 10-20 раз дешевле, отлично для классификации, извлечения, FAQ
3. Контекст > 100K токенов: Используйте Claude (200K) или Gemini (1M+) — другие модели требуют разбиения документов
4. Сложная математика / логика / рассуждения: Используйте reasoning-модели (o3, o4-mini) — они используют thinking tokens для пошаговых рассуждений, но стоят дороже из-за скрытых токенов
5. Нужен on-premise / приватность данных: Используйте Llama или Mistral — модели с открытыми весами для собственного хостинга
6. Всегда: тестируйте на ВАШИХ данных: Прогоните 50-100 реальных примеров через каждую модель-кандидат перед выбором — бенчмарки врут, ваши оценки — нет

Ключевые критерии выбора

Качество: Результаты бенчмарков (MMLU, HumanEval) менее важны, чем оценка на ВАШИХ данных — всегда тестируйте на реальных примерах из вашей области
Роутинг моделей: Используйте лёгкий классификатор для маршрутизации простых задач (FAQ, извлечение) на дешёвые модели, а сложных (рассуждения, код) — на флагманские. Экономия 60-80% при минимальной потере качества
Стоимость и задержка: Флагманские модели в 10-30 раз дороже и в 2-5 раз медленнее — обосновывайте апгрейд измеримой разницей качества на ваших оценках
Окно контекста: Нужно 100K+ токенов? Только Claude (200K) и Gemini (1M+) поддерживают нативно — для остальных нужны стратегии разбиения

Интересный факт: A/B-тестирование роутинга моделей в продакшене показало: отправка 80% тикетов поддержки на Haiku сэкономила 85% затрат при падении качества всего на 2%. Оставшиеся 20% сложных кейсов шли на Sonnet — общее снижение затрат 70% при почти идентичной удовлетворённости пользователей.

Попробуйте сами!

Используй интерактивное сравнение ниже, чтобы изучить разные модели и их компромиссы для различных случаев использования.

Сравнение моделей

Выберите ваш use case:

Сортировка:

Модель	Контекст	Цена (вход)	Качество	Лучше для
GPT-5 OpenAI	400K	$1.25/1M	Топ	General purposeAgents
Claude Opus 4.5 Anthropic	200K	$15.00/1M	Топ	ResearchComplex analysis
Claude Sonnet 4 Anthropic	200K	$3.00/1M	Топ	CodingAnalysis
o3 OpenAI	200K	$2.00/1M	Топ	Complex reasoningMath
GPT-4o OpenAI	128K	$2.50/1M	Высокое	ChatVision
Gemini 2.5 Pro Google	1M	$1.25/1M	Высокое	Long documentsReasoning
DeepSeek V3OSS DeepSeek	128K	$0.27/1M	Высокое	Budget projectsCoding
Qwen 2.5 72BOSS Alibaba	128K	Self-hosted	Высокое	Asian languagesSelf-hosted
Mistral Large 2 Mistral	128K	$2.00/1M	Высокое	EU complianceCost-effective
Llama 3.3 70BOSS Meta	128K	Self-hosted	Высокое	Privacy-sensitiveFine-tuning
o4-mini OpenAI	200K	$1.10/1M	Высокое	Budget reasoningMath
Gemini 2.5 Flash Google	1M	$0.30/1M	Среднее	High volumeLong documents
GPT-4o mini OpenAI	128K	$0.15/1M	Среднее	High volumeSimple tasks
Claude 3.5 Haiku Anthropic	200K	$0.80/1M	Среднее	ClassificationSimple tasks

Быстрый выбор

Нужен лучший: Claude Opus 4.5 / GPT-5
Сложные рассуждения: o3 / o4-mini
Лучший для кода: Claude Sonnet 4
Экономия: DeepSeek V3 / GPT-4o mini / Gemini 2.5 Flash
Длинные документы: Gemini 2.5 Pro (1M tokens)
Приватность: Llama 3.3 / Qwen 2.5 (self-hosted)

Попробуй сам

Интерактивное демо этой техники

Сравнение техник

Демо режим

Предзаписанные ответы

ЗадачаНачинающийАнализ

Выбрать подходящую модель для задачи категоризации обращений в поддержку

Без техники

Промпт

Классифицируй тикет в поддержку: "Не могу войти в аккаунт, забыл пароль". Категории: billing, auth, bug, feature_request.

Ответ

Данный запрос относится к категории "auth" (аутентификация). Пользователь испытывает трудности со входом в систему из-за утраченного пароля. Это типичная проблема аутентификации, которая решается через механизм сброса пароля. Рекомендую направить пользователю ссылку на восстановление пароля и проверить, не заблокирован ли аккаунт.

Токены:45/120

Время:2800ms

Качество:

С Выбор модели

С техникой

Промпт

Классифицируй тикет. Ответь ОДНИМ СЛОВОМ из списка: billing, auth, bug, feature_request. Тикет: "Не могу войти в аккаунт, забыл пароль"

Ответ

auth

👁️Для простой классификации не нужен GPT-4 — достаточно лёгкой модели (GPT-4o-mini, Haiku)

🧠Промпт сокращён: убрано многословие, ответ ограничен одним словом → меньше токенов на выходе

🔢Стоимость: GPT-4 ~$0.03/запрос vs GPT-4o-mini ~$0.0003/запрос — разница в 100 раз

✅Правило: подбирай модель под сложность задачи, не используй пушку против воробьёв

Токены:35/2

Время:180ms

Качество:

Почему это работает

Не каждая задача требует самой мощной модели. Для простой классификации лёгкая модель даёт тот же результат в 15 раз быстрее и в 100 раз дешевле.

1 / 2

Практика

Создайте бесплатный аккаунт для решения челленджей

3 челленджей с AI-проверкой для этого урока

Связанные уроки:Benchmarks Cost Optimization

Этот урок — часть структурированного курса по LLM.

Мой путь обучения

Урок 1

Гид по выбору модели

Выбор правильной модели

Решение: Выбирай правильный инструмент под задачу

Представьте это как выбор автомобиля для разных задач:

1. Задержка < 500мс И качество критично: Используйте GPT-4o или Claude Sonnet — лучший баланс скорости и интеллекта
2. Стоимость < $0.01/запрос И простая задача: Используйте GPT-4o Mini или Claude Haiku — в 10-20 раз дешевле, отлично для классификации, извлечения, FAQ
3. Контекст > 100K токенов: Используйте Claude (200K) или Gemini (1M+) — другие модели требуют разбиения документов
4. Сложная математика / логика / рассуждения: Используйте reasoning-модели (o3, o4-mini) — они используют thinking tokens для пошаговых рассуждений, но стоят дороже из-за скрытых токенов
5. Нужен on-premise / приватность данных: Используйте Llama или Mistral — модели с открытыми весами для собственного хостинга
6. Всегда: тестируйте на ВАШИХ данных: Прогоните 50-100 реальных примеров через каждую модель-кандидат перед выбором — бенчмарки врут, ваши оценки — нет

Ключевые критерии выбора

Качество: Результаты бенчмарков (MMLU, HumanEval) менее важны, чем оценка на ВАШИХ данных — всегда тестируйте на реальных примерах из вашей области
Роутинг моделей: Используйте лёгкий классификатор для маршрутизации простых задач (FAQ, извлечение) на дешёвые модели, а сложных (рассуждения, код) — на флагманские. Экономия 60-80% при минимальной потере качества
Стоимость и задержка: Флагманские модели в 10-30 раз дороже и в 2-5 раз медленнее — обосновывайте апгрейд измеримой разницей качества на ваших оценках
Окно контекста: Нужно 100K+ токенов? Только Claude (200K) и Gemini (1M+) поддерживают нативно — для остальных нужны стратегии разбиения

Попробуйте сами!

Сравнение моделей

Выберите ваш use case:

Сортировка:

Модель	Контекст	Цена (вход)	Качество	Лучше для
GPT-5 OpenAI	400K	$1.25/1M	Топ	General purposeAgents
Claude Opus 4.5 Anthropic	200K	$15.00/1M	Топ	ResearchComplex analysis
Claude Sonnet 4 Anthropic	200K	$3.00/1M	Топ	CodingAnalysis
o3 OpenAI	200K	$2.00/1M	Топ	Complex reasoningMath
GPT-4o OpenAI	128K	$2.50/1M	Высокое	ChatVision
Gemini 2.5 Pro Google	1M	$1.25/1M	Высокое	Long documentsReasoning
DeepSeek V3OSS DeepSeek	128K	$0.27/1M	Высокое	Budget projectsCoding
Qwen 2.5 72BOSS Alibaba	128K	Self-hosted	Высокое	Asian languagesSelf-hosted
Mistral Large 2 Mistral	128K	$2.00/1M	Высокое	EU complianceCost-effective
Llama 3.3 70BOSS Meta	128K	Self-hosted	Высокое	Privacy-sensitiveFine-tuning
o4-mini OpenAI	200K	$1.10/1M	Высокое	Budget reasoningMath
Gemini 2.5 Flash Google	1M	$0.30/1M	Среднее	High volumeLong documents
GPT-4o mini OpenAI	128K	$0.15/1M	Среднее	High volumeSimple tasks
Claude 3.5 Haiku Anthropic	200K	$0.80/1M	Среднее	ClassificationSimple tasks

Быстрый выбор

Нужен лучший: Claude Opus 4.5 / GPT-5
Сложные рассуждения: o3 / o4-mini
Лучший для кода: Claude Sonnet 4
Экономия: DeepSeek V3 / GPT-4o mini / Gemini 2.5 Flash
Длинные документы: Gemini 2.5 Pro (1M tokens)
Приватность: Llama 3.3 / Qwen 2.5 (self-hosted)

Попробуй сам

Интерактивное демо этой техники

Сравнение техник

Демо режим

Предзаписанные ответы

ЗадачаНачинающийАнализ

Выбрать подходящую модель для задачи категоризации обращений в поддержку

Без техники

Промпт

Классифицируй тикет в поддержку: "Не могу войти в аккаунт, забыл пароль". Категории: billing, auth, bug, feature_request.

Ответ

Токены:45/120

Время:2800ms

Качество:

С Выбор модели

С техникой

Промпт

Ответ

auth

👁️Для простой классификации не нужен GPT-4 — достаточно лёгкой модели (GPT-4o-mini, Haiku)

🧠Промпт сокращён: убрано многословие, ответ ограничен одним словом → меньше токенов на выходе

🔢Стоимость: GPT-4 ~$0.03/запрос vs GPT-4o-mini ~$0.0003/запрос — разница в 100 раз

✅Правило: подбирай модель под сложность задачи, не используй пушку против воробьёв

Токены:35/2

Время:180ms

Качество:

Почему это работает

1 / 2

Практика

Создайте бесплатный аккаунт для решения челленджей

3 челленджей с AI-проверкой для этого урока

Связанные уроки:Benchmarks Cost Optimization

Этот урок — часть структурированного курса по LLM.

Мой путь обучения