Урок 2

LLM бенчмарки

MMLU, HumanEval и другие

Проблема: Каждая ИИ-компания заявляет, что их модель лучшая. Маркетинг показывает только выгодные бенчмарки. Как объективно сравнить модели и понять, какая реально лучше для вашего кейса?

Решение: Оценивай модели системно

Бенчмарки — это стандартизированные тесты, измеряющие производительность моделей на различных задачах. Они как краш-тесты для машин — независимые оценки для объективного сравнения. Они помогают в выборе модели и показывают, где нужен файн-тюнинг. Но осторожно: контаминация бенчмарков (обучение на тестовых данных) может завышать результаты, и ни один бенчмарк не расскажет всю историю.

Представьте это как оценка на тест-драйве:

1. Определи категории задач из ВАШЕГО кейса: Что модель должна делать? Резюмировать отчёты? Отвечать на мед. вопросы? Писать код? Дебажить существующий код?
2. Проверь публичные бенчмарки (осторожно: контаминация): Используй GPQA, AIME, SWE-bench как фильтры — но помни, что модели могли обучаться на тестовых данных. AIME/SWE-bench сложнее обмануть — они используют реальные задачи
3. Собери 50-100 эталонных пар: Составь пары вход/выход с экспертно верифицированными ответами. Это единственная оценка, которую нельзя контаминировать
4. Оцени модели на СВОИХ данных: Прогони каждую модель на своём датасете. Используй LLM-as-judge (сильная модель оценивает слабые) для масштабируемой оценки. Измерь точность, задержку и стоимость
5. Сравни стоимость за единицу качества: Дешёвая модель с 90% точностью может быть лучше дорогой с 95% — посчитай ROI. Reasoning-модели стоят в 3-5 раз дороже, но могут окупиться для мат./логических задач
6. Переоценивай ежеквартально: Модели улучшаются быстро — лучший выбор сегодня может устареть через 3 месяца. Автоматизируй свой eval-пайплайн

Ключевые бенчмарки

MMLU: Вопросы с выбором ответа по 57 предметам. Насыщен — большинство моделей набирают >88%, менее полезен для сравнения
GPQA Diamond: Вопросы уровня PhD по наукам. Сложнее MMLU, хорошо разделяет лидеров. GPT-5 и Claude Opus 4.5 лидируют с ~87%
AIME 2024: Реальные задачи мат. олимпиады. Reasoning-модели (o3: 91.6%, DeepSeek R1: 86.7%) доминируют. Обычные модели: 50-74%. Самый большой разрыв между reasoning и обычными моделями
SWE-bench Verified: Решение реальных GitHub issues в реальных кодовых базах. Самый практичный код-бенчмарк. Claude Opus 4.5 лидирует с 80.9% — далеко от open-source моделей (~40-50%)
Chatbot Arena (Elo): Рейтинг на основе предпочтений: пользователи сравнивают анонимные ответы моделей и голосуют. 6M+ голосов формируют Elo-рейтинг. Самый надёжный «вайб»-бенчмарк — измеряет реальные предпочтения людей
Кастомные бенчмарки: Публичные бенчмарки показывают общие способности. Кастомные — работает ли модель для ВАШЕЙ задачи. Лидер MMLU может не быть лучшим для вашего медицинского чат-бота. Всегда делайте доменную оценку

Интересный факт: На AIME 2024 reasoning-модель o3 набирает 91.6% — лучше 99% людей-участников. Но на SWE-bench (реальный код) она набирает лишь 61.2%, а Claude Opus 4.5 — 80.9%. Нет универсально «лучшей» модели — есть лучшая модель для ВАШЕЙ задачи.

Попробуйте сами!

Изучи интерактивное сравнение бенчмарков ниже, чтобы увидеть, как модели показывают себя на разных задачах.

LLM бенчмаркиИнтерактивно

Massive Multitask Language Understanding

Тестирует знания по 57 предметам от STEM до гуманитарных. Насыщен — большинство моделей >88%

Измеряет: Общие знания (насыщен)

o3Лидер

91.2%

GPT-5

90.2%

Claude Opus 4.5

89.8%

Gemini 2.5 Pro

89.5%

Claude Sonnet 4

88.7%

DeepSeek V3

88.5%

Qwen 3

86.2%

DeepSeek R1

85.5%

Как читать бенчмарки

Выше — лучше: Но различия < 2% обычно не значимы на практике
Контекст важен: MMLU тестирует знания, SWE-bench — реальный код. Выбирайте по задаче
Нет универсального лидера: o3 лидирует в математике, Claude — в коде, GPT-5 — в знаниях. Выбирайте под ВАШУ задачу

Контаминация бенчмарков

Модели могли обучаться на данных бенчмарков, завышая результаты. AIME и SWE-bench сложнее контаминировать — они используют реальные задачи. Всегда тестируйте на СВОИХ данных — это единственный бенчмарк, который нельзя обмануть.

Лучший для кода

Claude (SWE-bench)

Лучший для знаний

GPT-5 (GPQA)

Лучший для математики

o3 / DeepSeek R1

Лучший открытый

DeepSeek V3 / Qwen 3

Попробуй сам

Интерактивное демо этой техники

Сравнение техник

Демо режим

Предзаписанные ответы

ЗадачаНачинающийАнализ

Оценить качество модели систематически вместо субъективной оценки

Без техники

Промпт

Мы тестируем новую модель для саммаризации статей. Как оценить качество?

Ответ

Попробуйте несколько статей и посмотрите, нравятся ли вам результаты. Если саммари хорошие — модель подходит.

Токены:25/30

Время:350ms

Качество:

С Бенчмарки

С техникой

Промпт

Ты — ML-инженер. Проектируешь бенчмарк для оценки модели суммаризации. Требования: 1. Тестовый датасет: сколько примеров, какие категории 2. Метрики: автоматические + ручные 3. Критерии pass/fail: пороговые значения 4. Процесс: как запускать, как часто Контекст: суммаризация новостных статей, 500-2000 слов → 2-3 предложения.

Ответ

1. Тестовый датасет: 100 статей

5 категорий × 20 статей: политика, техно, спорт, экономика, наука
Golden summaries: написаны экспертами (ground truth)

2. Метрики: Авто: ROUGE-L ≥ 0.35, BERTScore ≥ 0.85, длина 40-80 токенов Ручные (sample 20%): точность фактов (1-5), полнота (1-5), читаемость (1-5)

3. Критерии pass/fail:

ROUGE-L < 0.30 → FAIL
Фактические ошибки > 10% → FAIL
BERTScore < 0.80 → WARNING

4. Процесс:

CI: автометрики на каждый PR с изменением промпта
Еженедельно: ручная оценка 20 случайных production-запросов
Ежемесячно: полный прогон 100 статей при смене модели

👁️"Мне нравится" — не метрика. Нужны количественные показатели: ROUGE, BERTScore, ручная оценка

🧠Авто-метрики ловят регрессии в CI, ручные — ловят то, что автоматика пропускает (factual accuracy)

✅Пороговые значения (ROUGE-L < 0.30 = FAIL) превращают оценку из субъективной в объективную

Токены:95/240

Время:1600ms

Качество:

Почему это работает

Систематический бенчмарк: датасет с golden answers + авто-метрики (ROUGE, BERTScore) + ручная оценка + пороги pass/fail. Без этого смена модели или промпта — рулетка.

1 / 2

Практика

Создайте бесплатный аккаунт для решения челленджей

4 челленджей с AI-проверкой для этого урока

Связанные уроки:Model Selection Fine Tuning

Этот урок — часть структурированного курса по LLM.

Мой путь обучения

Урок 2

LLM бенчмарки

MMLU, HumanEval и другие

Решение: Оценивай модели системно

Представьте это как оценка на тест-драйве:

1. Определи категории задач из ВАШЕГО кейса: Что модель должна делать? Резюмировать отчёты? Отвечать на мед. вопросы? Писать код? Дебажить существующий код?
2. Проверь публичные бенчмарки (осторожно: контаминация): Используй GPQA, AIME, SWE-bench как фильтры — но помни, что модели могли обучаться на тестовых данных. AIME/SWE-bench сложнее обмануть — они используют реальные задачи
3. Собери 50-100 эталонных пар: Составь пары вход/выход с экспертно верифицированными ответами. Это единственная оценка, которую нельзя контаминировать
4. Оцени модели на СВОИХ данных: Прогони каждую модель на своём датасете. Используй LLM-as-judge (сильная модель оценивает слабые) для масштабируемой оценки. Измерь точность, задержку и стоимость
5. Сравни стоимость за единицу качества: Дешёвая модель с 90% точностью может быть лучше дорогой с 95% — посчитай ROI. Reasoning-модели стоят в 3-5 раз дороже, но могут окупиться для мат./логических задач
6. Переоценивай ежеквартально: Модели улучшаются быстро — лучший выбор сегодня может устареть через 3 месяца. Автоматизируй свой eval-пайплайн

Ключевые бенчмарки

MMLU: Вопросы с выбором ответа по 57 предметам. Насыщен — большинство моделей набирают >88%, менее полезен для сравнения
GPQA Diamond: Вопросы уровня PhD по наукам. Сложнее MMLU, хорошо разделяет лидеров. GPT-5 и Claude Opus 4.5 лидируют с ~87%
AIME 2024: Реальные задачи мат. олимпиады. Reasoning-модели (o3: 91.6%, DeepSeek R1: 86.7%) доминируют. Обычные модели: 50-74%. Самый большой разрыв между reasoning и обычными моделями
SWE-bench Verified: Решение реальных GitHub issues в реальных кодовых базах. Самый практичный код-бенчмарк. Claude Opus 4.5 лидирует с 80.9% — далеко от open-source моделей (~40-50%)
Chatbot Arena (Elo): Рейтинг на основе предпочтений: пользователи сравнивают анонимные ответы моделей и голосуют. 6M+ голосов формируют Elo-рейтинг. Самый надёжный «вайб»-бенчмарк — измеряет реальные предпочтения людей
Кастомные бенчмарки: Публичные бенчмарки показывают общие способности. Кастомные — работает ли модель для ВАШЕЙ задачи. Лидер MMLU может не быть лучшим для вашего медицинского чат-бота. Всегда делайте доменную оценку

Попробуйте сами!

Изучи интерактивное сравнение бенчмарков ниже, чтобы увидеть, как модели показывают себя на разных задачах.

LLM бенчмаркиИнтерактивно

Massive Multitask Language Understanding

Тестирует знания по 57 предметам от STEM до гуманитарных. Насыщен — большинство моделей >88%

Измеряет: Общие знания (насыщен)

o3Лидер

91.2%

GPT-5

90.2%

Claude Opus 4.5

89.8%

Gemini 2.5 Pro

89.5%

Claude Sonnet 4

88.7%

DeepSeek V3

88.5%

Qwen 3

86.2%

DeepSeek R1

85.5%

Как читать бенчмарки

Выше — лучше: Но различия < 2% обычно не значимы на практике
Контекст важен: MMLU тестирует знания, SWE-bench — реальный код. Выбирайте по задаче
Нет универсального лидера: o3 лидирует в математике, Claude — в коде, GPT-5 — в знаниях. Выбирайте под ВАШУ задачу

Контаминация бенчмарков

Лучший для кода

Claude (SWE-bench)

Лучший для знаний

GPT-5 (GPQA)

Лучший для математики

o3 / DeepSeek R1

Лучший открытый

DeepSeek V3 / Qwen 3

Попробуй сам

Интерактивное демо этой техники

Сравнение техник

Демо режим

Предзаписанные ответы

ЗадачаНачинающийАнализ

Оценить качество модели систематически вместо субъективной оценки

Без техники

Промпт

Мы тестируем новую модель для саммаризации статей. Как оценить качество?

Ответ

Токены:25/30

Время:350ms

Качество:

С Бенчмарки

С техникой

Промпт

Ответ

1. Тестовый датасет: 100 статей

5 категорий × 20 статей: политика, техно, спорт, экономика, наука
Golden summaries: написаны экспертами (ground truth)

3. Критерии pass/fail:

ROUGE-L < 0.30 → FAIL
Фактические ошибки > 10% → FAIL
BERTScore < 0.80 → WARNING

4. Процесс:

CI: автометрики на каждый PR с изменением промпта
Еженедельно: ручная оценка 20 случайных production-запросов
Ежемесячно: полный прогон 100 статей при смене модели

👁️"Мне нравится" — не метрика. Нужны количественные показатели: ROUGE, BERTScore, ручная оценка

🧠Авто-метрики ловят регрессии в CI, ручные — ловят то, что автоматика пропускает (factual accuracy)

✅Пороговые значения (ROUGE-L < 0.30 = FAIL) превращают оценку из субъективной в объективную

Токены:95/240

Время:1600ms

Качество:

Почему это работает

1 / 2

Практика

Создайте бесплатный аккаунт для решения челленджей

4 челленджей с AI-проверкой для этого урока

Связанные уроки:Model Selection Fine Tuning

Этот урок — часть структурированного курса по LLM.

Мой путь обучения