Reasoning-модели
Модели, которые думают перед ответом
Проблема: Обычные LLM генерируют ответ токен за токеном, всегда двигаясь вперёд. Они не могут остановиться, пересмотреть или попробовать другой подход. Для простых вопросов это работает, но для сложной математики, кода и логики — часто ошибаются с первой попытки.
Решение: Дай модели подумать
Reasoning-модели — это LLM, которые тратят дополнительные вычисления на «размышление» перед ответом. В отличие от обычных моделей, дающих первый правдоподобный ответ, reasoning-модели генерируют внутренние chain-of-thought токены — исследуя гипотезы, проверяя свою работу и откатываясь при необходимости. Эти thinking-токены оплачиваются, но не показываются в финальном ответе. Ключевой инсайт: точность растёт логарифмически с количеством thinking-токенов — больше «черновика» = лучше ответы на сложных задачах.
Представьте это как решать экзамен по математике на черновике vs в уме:
- 1. Получить задачу: Пользователь отправляет сложный вопрос — математика, код или многошаговое рассуждение
- 2. Генерация thinking-токенов: Модель генерирует внутреннее рассуждение: исследует подходы, проверяет промежуточные результаты, откатывается от тупиков
- 3. Самопроверка: Модель перечитывает своё рассуждение, ловит ошибки и исправляет их — как вычитка черновика
- 4. Выдать финальный ответ: Пользователю возвращается только чистый, проверенный ответ. Thinking-токены скрыты (но оплачены)
Thinking-токены тарифицируются как output-токены, но скрыты от пользователя. Ответ в 500 видимых токенов мог потребить 2 000+ thinking-токенов — следите за расходами!
Где reasoning-модели сильны
- Сложная математика и наука: Олимпиадная математика (AIME, USAMO), физические выводы, формальные доказательства
- Сложное программирование: Многофайловые рефакторинги, проектирование алгоритмов, отладка сложных систем
- Многошаговое планирование: Агентные workflow, стратегические решения с компромиссами, проектирование архитектуры
- Анализ и рассуждение: Анализ юридических документов, рецензирование научных статей, сложная интерпретация данных
Интересный факт: DeepSeek R1 обучался чистым обучением с подкреплением (GRPO) без единого примера рассуждений от человека. Модель спонтанно выработала chain-of-thought поведение — исследователи наблюдали «ага-моменты», когда модель научилась переоценивать и исправлять себя. Статья опубликована в Nature.
Попробуйте сами!
Попробуй интерактивное сравнение ниже — увидь, как reasoning-модель разбирает задачу по шагам, в то время как обычная отвечает сразу.
Ландшафт reasoning-моделей (2025)
OpenAI o1 / o3 / o4-mini
Пионеры reasoning-моделей. o1 (сен 2024), o3 (2025), o4-mini (апр 2025). До 200K контекст.
DeepSeek R1
Открытая reasoning-модель, обученная чистым RL (GRPO). Опубликована в Nature. Показала, что рассуждение возникает без обучающих примеров.
Claude (Extended Thinking)
Подход Anthropic: настраиваемый «бюджет мышления» контролирует, сколько токенов Claude тратит на рассуждения. Адаптивное мышление в Claude 4.
Gemini 2.5 Flash / Pro (Thinking)
Гибридное рассуждение Google: мышление включается/выключается с бюджетом (0-24K токенов). Deep Think для Pro на самых сложных задачах.
Когда НЕ использовать reasoning-модели
- Простые Q&A, перевод, суммаризация — обычные модели быстрее и дешевле
- Чат в реальном времени — thinking-токены добавляют задержку (секунды до минут)
- Высоконагруженные простые задачи — расходы на скрытые thinking-токены быстро растут
Не делай так
“Думай пошагово. Сначала проанализируй задачу, затем разбей на части...”
→ Избыточно! Модель уже думает внутренне. Ручной CoT может её запутать.
Делай так
“Реши: найди все простые p такие, что p² + 2 тоже простое. Докажи ответ.”
→ Прямо и ясно. Пусть модель сама решит, КАК думать.
Этот урок — часть структурированного курса по LLM.
Мой путь обучения