LLM бенчмарки
MMLU, HumanEval и другие
Проблема: Каждая ИИ-компания заявляет, что их модель лучшая. Маркетинг показывает только выгодные бенчмарки. Как объективно сравнить модели и понять, какая реально лучше для вашего кейса?
Решение: Оценивай модели системно
Бенчмарк — это стандартизированный тест, который измеряет качество модели на фиксированном наборе задач по фиксированному правилу подсчёта. Ключевое слово — стандартизированный: все модели получают одни и те же вопросы и оцениваются одинаково, поэтому результат можно сравнивать между лабораториями и во времени. Это как краш-тесты для машин: независимая организация проводит одинаковый удар на каждом авто, и пять звёзд значат одно и то же, кто бы машину ни построил. Бенчмарки бывают разных семейств: тесты знаний вроде MMLU (вопросы с выбором ответа по 57 предметам), тесты рассуждений вроде GPQA Diamond и AIME (сложные науки и олимпиадная математика), агентные/кодовые тесты вроде SWE-bench Verified (решение реальных GitHub issues) и рейтинги по человеческим предпочтениям вроде Chatbot Arena, где люди голосуют за анонимные ответы, а голоса превращаются в Elo-рейтинг. Каждое семейство меряет своё — одно число никогда не описывает модель целиком.
Как на самом деле считается результат
Большинство тестов знаний и математики используют точное совпадение (exact-match accuracy): ответ модели разбирается и сравнивается с эталоном, а ты получаешь процент верных. Кодовые бенчмарки вроде SWE-bench запускают патч модели на реальном наборе тестов проекта — задача «пройдена» только если тесты зелёные, а это куда сложнее подделать, чем угадать букву. Две детали тихо меняют итог: формат промпта (zero-shot или few-shot, с chain-of-thought или без) и разрешено ли модели «подумать» перед ответом. Именно поэтому reasoning-модели вроде o3 резко взлетают на AIME, но почти не двигаются на простом припоминании — они тратят лишние токены на рассуждение. Читая лидерборд, всегда смотри на настройки оценки, а не только на громкий процент. Эти результаты напрямую питают выбор модели и показывают, где помог бы точечный файн-тюнинг.
Главная ловушка: контаминация
Ловушка номер один — контаминация бенчмарков: тестовые вопросы (или их близкие перефразировки) утекли в обучающие данные модели, и она «знает ответы», а не выводит их рассуждением. Модель может показать блестящий MMLU и всё равно провалить твою реальную задачу. Разобранный пример: допустим, ты выбираешь модель для медицинского чат-бота поддержки. Модель A лидирует на публичном MMLU с 90%, модель B — 86%. Вместо доверия лидерборду ты собираешь 80 настоящих вопросов пациентов с ответами, проверенными врачом, и прогоняешь обе. На твоём приватном наборе модель B набирает 81%, а модель A — лишь 68%: A запомнила публичные экзаменационные вопросы, не похожие на твои живые и сумбурные. Вывод: публичные бенчмарки — это фильтр, чтобы отобрать кандидатов, но решение должно опираться на приватную доменную оценку, на которой ни одна модель не могла обучаться.
Представьте это как оценка на тест-драйве:
- 1. Определи категории задач из ВАШЕГО кейса: Что модель должна делать? Резюмировать отчёты? Отвечать на мед. вопросы? Писать код? Дебажить существующий код?
- 2. Проверь публичные бенчмарки (осторожно: контаминация): Используй GPQA, AIME, SWE-bench как фильтры — но помни, что модели могли обучаться на тестовых данных. AIME/SWE-bench сложнее обмануть — они используют реальные задачи
- 3. Собери 50-100 эталонных пар: Составь пары вход/выход с экспертно верифицированными ответами. Это единственная оценка, которую нельзя контаминировать
- 4. Оцени модели на СВОИХ данных: Прогони каждую модель на своём датасете. Используй LLM-as-judge (сильная модель оценивает слабые) для масштабируемой оценки. Измерь точность, задержку и стоимость
- 5. Сравни стоимость за единицу качества: Дешёвая модель с 90% точностью может быть лучше дорогой с 95% — посчитай ROI. Reasoning-модели стоят в 3-5 раз дороже, но могут окупиться для мат./логических задач
- 6. Переоценивай ежеквартально: Модели улучшаются быстро — лучший выбор сегодня может устареть через 3 месяца. Автоматизируй свой eval-пайплайн
Ключевые бенчмарки
- MMLU: Вопросы с выбором ответа по 57 предметам. Насыщен — большинство моделей набирают >88%, менее полезен для сравнения
- GPQA Diamond: Вопросы уровня PhD по наукам. Сложнее MMLU, хорошо разделяет лидеров. GPT-5 и Claude Opus 4.5 лидируют с ~87%
- AIME 2024: Реальные задачи мат. олимпиады. Reasoning-модели (o3: 91.6%, DeepSeek R1: 86.7%) доминируют. Обычные модели: 50-74%. Самый большой разрыв между reasoning и обычными моделями
- SWE-bench Verified: Решение реальных GitHub issues в реальных кодовых базах. Самый практичный код-бенчмарк. Claude Opus 4.5 лидирует с 80.9% — далеко от open-source моделей (~40-50%)
- Chatbot Arena (Elo): Рейтинг на основе предпочтений: пользователи сравнивают анонимные ответы моделей и голосуют. 6M+ голосов формируют Elo-рейтинг. Самый надёжный «вайб»-бенчмарк — измеряет реальные предпочтения людей
- Кастомные бенчмарки: Публичные бенчмарки показывают общие способности. Кастомные — работает ли модель для ВАШЕЙ задачи. Лидер MMLU может не быть лучшим для вашего медицинского чат-бота. Всегда делайте доменную оценку
Интересный факт: На AIME 2024 reasoning-модель o3 набирает 91.6% — лучше 99% людей-участников. Но на SWE-bench (реальный код) она набирает лишь 61.2%, а Claude Opus 4.5 — 80.9%. Нет универсально «лучшей» модели — есть лучшая модель для ВАШЕЙ задачи.
Попробуйте сами!
Изучи интерактивное сравнение бенчмарков ниже, чтобы увидеть, как модели показывают себя на разных задачах.
Massive Multitask Language Understanding
Тестирует знания по 57 предметам от STEM до гуманитарных. Насыщен — большинство моделей >88%
Как читать бенчмарки
- Выше — лучше: Но различия < 2% обычно не значимы на практике
- Контекст важен: MMLU тестирует знания, SWE-bench — реальный код. Выбирайте по задаче
- Нет универсального лидера: o3 лидирует в математике, Claude — в коде, GPT-5 — в знаниях. Выбирайте под ВАШУ задачу
Контаминация бенчмарков
Модели могли обучаться на данных бенчмарков, завышая результаты. AIME и SWE-bench сложнее контаминировать — они используют реальные задачи. Всегда тестируйте на СВОИХ данных — это единственный бенчмарк, который нельзя обмануть.
Частые вопросы
Что такое бенчмарк LLM простыми словами?
Бенчмарк — это стандартизированный тест, который меряет качество языковой модели на фиксированном наборе задач по фиксированному правилу подсчёта. Все модели получают одни и те же вопросы и оцениваются одинаково, поэтому результаты можно честно сравнивать между собой и во времени — как краш-тесты для машин.
Чем отличаются MMLU, GPQA, AIME и SWE-bench?
MMLU — тест знаний с выбором ответа по 57 предметам, сейчас почти насыщен (>88% у лидеров). GPQA Diamond — вопросы уровня PhD по наукам, сложнее и лучше разделяет модели. AIME — олимпиадная математика, где доминируют reasoning-модели. SWE-bench Verified — самый практичный кодовый тест: модель должна решить реальные GitHub issues, и патч засчитывается только если проходят настоящие тесты проекта.
Почему модель с высоким баллом на бенчмарке может плохо работать на моей задаче?
Главная причина — контаминация: тестовые вопросы (или их перефразировки) попали в обучающие данные, и модель «помнит ответы», а не рассуждает. Плюс публичные бенчмарки меряют общие способности, а не твой домен. Поэтому собирай 50–100 эталонных пар вход/выход по своей задаче и оценивай кандидатов на этом приватном наборе — его нельзя контаминировать.
Как самому сравнить несколько LLM для своего проекта?
Определи категории задач из своего кейса, используй публичные бенчмарки (GPQA, AIME, SWE-bench) как первичный фильтр, собери 50–100 пар с экспертно проверенными ответами и прогони каждую модель на этом датасете. Для масштаба применяй LLM-as-judge. Меряй не только точность, но и задержку и стоимость, считай ROI (цену за единицу качества) и переоценивай модели примерно раз в квартал — они быстро меняются.
Попробуй сам
Интерактивное демо этой техники
Оценить качество модели систематически вместо субъективной оценки
Попробуйте несколько статей и посмотрите, нравятся ли вам результаты. Если саммари хорошие — модель подходит.
1. Тестовый датасет: 100 статей
- 5 категорий × 20 статей: политика, техно, спорт, экономика, наука
- Golden summaries: написаны экспертами (ground truth)
2. Метрики: Авто: ROUGE-L ≥ 0.35, BERTScore ≥ 0.85, длина 40-80 токенов Ручные (sample 20%): точность фактов (1-5), полнота (1-5), читаемость (1-5)
3. Критерии pass/fail:
- ROUGE-L < 0.30 → FAIL
- Фактические ошибки > 10% → FAIL
- BERTScore < 0.80 → WARNING
4. Процесс:
- CI: автометрики на каждый PR с изменением промпта
- Еженедельно: ручная оценка 20 случайных production-запросов
- Ежемесячно: полный прогон 100 статей при смене модели
Систематический бенчмарк: датасет с golden answers + авто-метрики (ROUGE, BERTScore) + ручная оценка + пороги pass/fail. Без этого смена модели или промпта — рулетка.
Создайте бесплатный аккаунт для решения челленджей
4 челленджей с AI-проверкой для этого урока
Этот урок — часть структурированного курса по LLM.
Мой путь обучения