Оценка и тестирование агентов
Метрики, пайплайны тестирования, карты оценки
📖 Аналогия
Оценка AI-агента — как аттестация сотрудника. Ты проверяешь не просто присутствие, а процесс принятия решений, как он справлялся с нестандартными ситуациями, использовал ли правильные инструменты и соответствует ли результат стандартам качества.
Почему оценка агентов сложнее
Недетерминированность
Один и тот же вход может давать разные выходы. Классические юнит-тесты с точным сравнением не работают — нужна семантическая оценка и статистическое тестирование.
Многошаговое рассуждение
Агенты делают несколько шагов. Ошибка на шаге 2 может накапливаться до шага 5. Нужно оценивать не только финальный ответ, но всю траекторию.
Взаимодействие с инструментами
Агенты вызывают внешние API, базы данных и инструменты. Тестирование требует мокирования внешних сервисов и валидации правильности вызовов.
Накопление ошибок
Если каждый шаг имеет 90% точности, 5-шаговый агент имеет только 59% точности (0.9^5). Небольшие улучшения на каждом шаге дают огромный эффект на общее качество.
4 уровня оценки
Компонентное тестирование
Тестирование отдельных частей: шаблоны промптов, парсеры инструментов, форматтеры вывода. Быстро, дёшево, ловит 60% багов.
Оценка траектории
Сравнение пути рассуждения агента с эталонными траекториями. Выбрал ли он правильные инструменты в правильном порядке?
Сквозное тестирование
Запуск полного агента на реальных сценариях. Измерение завершения задач, стоимости и задержки. Самое медленное, но самое реалистичное.
Человеческая оценка
Экспертная проверка выводов агента на выборке. Ловит тонкие проблемы качества, которые автоматические метрики пропускают.
Ключевые метрики
⚠️ Частая ошибка
Demo-driven development: агент идеально работает на 3 подобранных примерах, а потом падает на 100 реальных. Всегда тестируй на разнообразном golden dataset из 50+ кейсов с граничными случаями, а не только на happy path.
Паттерны тестирования
Golden Datasets
Собери 50-200 тест-кейсов с ожидаемыми результатами. Включи happy paths, граничные случаи и режимы отказа. Версионируй их как код.
Регрессионные наборы
Каждый баг становится тест-кейсом. Запускай набор при каждом изменении промпта или обновлении модели. Лови регрессии до продакшна.
Sandbox-окружения
Мокирование внешних API и баз данных. Тестирование взаимодействия с инструментами без побочных эффектов. Используй record-replay для детерминированных тестов.
Адверсарное тестирование
Подбрось агенту граничные случаи, некорректные входы и prompt injection. Тестируй поведение восстановления при сбоях инструментов.
💡 Интересный факт
Внутреннее тестирование агентов Anthropic показало, что 73% сбоев агентов происходят из-за неправильного форматирования параметров инструментов — а не из-за ошибок рассуждения. Простая валидация входов вызовов инструментов может драматически повысить надёжность агента.
Какая погода в Токио завтра?
Мне нужно проверить погоду в Токио. Я использую API погоды с названием города и завтрашней датой.
Создайте бесплатный аккаунт для решения челленджей
3 челленджей с AI-проверкой для этого урока
Этот урок — часть структурированного курса по LLM.
Мой путь обучения