Урок 13Новое

Reasoning-модели

Модели, которые думают перед ответом

Проблема: Обычные LLM генерируют ответ токен за токеном, всегда двигаясь вперёд. Они не могут остановиться, пересмотреть или попробовать другой подход. Для простых вопросов это работает, но для сложной математики, кода и логики — часто ошибаются с первой попытки.

Решение: Дай модели подумать

Reasoning-модели — это LLM, которые тратят дополнительные вычисления на «размышление» перед ответом. В отличие от обычных моделей, дающих первый правдоподобный ответ, reasoning-модели генерируют внутренние chain-of-thought токены — исследуя гипотезы, проверяя свою работу и откатываясь при необходимости. Эти thinking-токены оплачиваются, но не показываются в финальном ответе. Ключевой инсайт: точность растёт логарифмически с количеством thinking-токенов — больше «черновика» = лучше ответы на сложных задачах.

Представьте это как решать экзамен по математике на черновике vs в уме:

1. Получить задачу: Пользователь отправляет сложный вопрос — математика, код или многошаговое рассуждение
2. Генерация thinking-токенов: Модель генерирует внутреннее рассуждение: исследует подходы, проверяет промежуточные результаты, откатывается от тупиков
3. Самопроверка: Модель перечитывает своё рассуждение, ловит ошибки и исправляет их — как вычитка черновика
4. Выдать финальный ответ: Пользователю возвращается только чистый, проверенный ответ. Thinking-токены скрыты (но оплачены)

Thinking-токены тарифицируются как output-токены, но скрыты от пользователя. Ответ в 500 видимых токенов мог потребить 2 000+ thinking-токенов — следите за расходами!

Где reasoning-модели сильны

Сложная математика и наука: Олимпиадная математика (AIME, USAMO), физические выводы, формальные доказательства
Сложное программирование: Многофайловые рефакторинги, проектирование алгоритмов, отладка сложных систем
Многошаговое планирование: Агентные workflow, стратегические решения с компромиссами, проектирование архитектуры
Анализ и рассуждение: Анализ юридических документов, рецензирование научных статей, сложная интерпретация данных

Интересный факт: DeepSeek R1 обучался чистым обучением с подкреплением (GRPO) без единого примера рассуждений от человека. Модель спонтанно выработала chain-of-thought поведение — исследователи наблюдали «ага-моменты», когда модель научилась переоценивать и исправлять себя. Статья опубликована в Nature.

Попробуйте сами!

Попробуй интерактивное сравнение ниже — увидь, как reasoning-модель разбирает задачу по шагам, в то время как обычная отвечает сразу.

Ландшафт reasoning-моделей (2025)

OpenAI o1 / o3 / o4-mini

Пионеры reasoning-моделей. o1 (сен 2024), o3 (2025), o4-mini (апр 2025). До 200K контекст.

DeepSeek R1

Открытая reasoning-модель, обученная чистым RL (GRPO). Опубликована в Nature. Показала, что рассуждение возникает без обучающих примеров.

Claude (Extended Thinking)

Подход Anthropic: настраиваемый «бюджет мышления» контролирует, сколько токенов Claude тратит на рассуждения. Адаптивное мышление в Claude 4.

Gemini 2.5 Flash / Pro (Thinking)

Гибридное рассуждение Google: мышление включается/выключается с бюджетом (0-24K токенов). Deep Think для Pro на самых сложных задачах.

Когда НЕ использовать reasoning-модели

Простые Q&A, перевод, суммаризация — обычные модели быстрее и дешевле
Чат в реальном времени — thinking-токены добавляют задержку (секунды до минут)
Высоконагруженные простые задачи — расходы на скрытые thinking-токены быстро растут

Не делай так

“Думай пошагово. Сначала проанализируй задачу, затем разбей на части...”

→ Избыточно! Модель уже думает внутренне. Ручной CoT может её запутать.

Делай так

“Реши: найди все простые p такие, что p² + 2 тоже простое. Докажи ответ.”

→ Прямо и ясно. Пусть модель сама решит, КАК думать.

Этот урок — часть структурированного курса по LLM.

Мой путь обучения