Урок 10Оценка

Оценка и тестирование агентов

Метрики, пайплайны тестирования, карты оценки

📖 Аналогия

Оценка AI-агента — как аттестация сотрудника. Ты проверяешь не просто присутствие, а процесс принятия решений, как он справлялся с нестандартными ситуациями, использовал ли правильные инструменты и соответствует ли результат стандартам качества.

Почему оценка агентов сложнее

Недетерминированность

Один и тот же вход может давать разные выходы. Классические юнит-тесты с точным сравнением не работают — нужна семантическая оценка и статистическое тестирование.

Многошаговое рассуждение

Агенты делают несколько шагов. Ошибка на шаге 2 может накапливаться до шага 5. Нужно оценивать не только финальный ответ, но всю траекторию.

Взаимодействие с инструментами

Агенты вызывают внешние API, базы данных и инструменты. Тестирование требует мокирования внешних сервисов и валидации правильности вызовов.

Накопление ошибок

Если каждый шаг имеет 90% точности, 5-шаговый агент имеет только 59% точности (0.9^5). Небольшие улучшения на каждом шаге дают огромный эффект на общее качество.

4 уровня оценки

Компонентное тестирование

Тестирование отдельных частей: шаблоны промптов, парсеры инструментов, форматтеры вывода. Быстро, дёшево, ловит 60% багов.

Оценка траектории

Сравнение пути рассуждения агента с эталонными траекториями. Выбрал ли он правильные инструменты в правильном порядке?

Сквозное тестирование

Запуск полного агента на реальных сценариях. Измерение завершения задач, стоимости и задержки. Самое медленное, но самое реалистичное.

Человеческая оценка

Экспертная проверка выводов агента на выборке. Ловит тонкие проблемы качества, которые автоматические метрики пропускают.

Ключевые метрики

85%+

Завершение задач

Целевой процент завершения для продакшн-агентов

95%+

Точность инструментов

Правильные вызовы с верными параметрами

<$0.10

Стоимость за задачу

Средняя стоимость LLM на выполненную задачу

<30s

Сквозная задержка

Время от запроса до финального ответа

⚠️ Частая ошибка

Demo-driven development: агент идеально работает на 3 подобранных примерах, а потом падает на 100 реальных. Всегда тестируй на разнообразном golden dataset из 50+ кейсов с граничными случаями, а не только на happy path.

Паттерны тестирования

Golden Datasets

Собери 50-200 тест-кейсов с ожидаемыми результатами. Включи happy paths, граничные случаи и режимы отказа. Версионируй их как код.

Регрессионные наборы

Каждый баг становится тест-кейсом. Запускай набор при каждом изменении промпта или обновлении модели. Лови регрессии до продакшна.

Sandbox-окружения

Мокирование внешних API и баз данных. Тестирование взаимодействия с инструментами без побочных эффектов. Используй record-replay для детерминированных тестов.

Адверсарное тестирование

Подбрось агенту граничные случаи, некорректные входы и prompt injection. Тестируй поведение восстановления при сбоях инструментов.

💡 Интересный факт

Внутреннее тестирование агентов Anthropic показало, что 73% сбоев агентов происходят из-за неправильного форматирования параметров инструментов — а не из-за ошибок рассуждения. Простая валидация входов вызовов инструментов может драматически повысить надёжность агента.

Задача пользователя

Какая погода в Токио завтра?

🧠Мысль— Шаг 1

Мне нужно проверить погоду в Токио. Я использую API погоды с названием города и завтрашней датой.

✅

Корректное рассуждение—Агент верно определил необходимость инструмента погоды

Практика

Создайте бесплатный аккаунт для решения челленджей

3 челленджей с AI-проверкой для этого урока

Связанные уроки:Building Agents Architectures Observability

Этот урок — часть структурированного курса по LLM.

Мой путь обучения