Урок 4

Мониторинг LLM

Наблюдаемость и отладка

Проблема: ИИ в проде — это чёрный ящик. Как узнать, когда он ошибается, тормозит или стоит слишком дорого? Как отлаживать проблемы?

Решение: Мониторинг здоровья твоего ИИ

Observability для LLM означает отслеживание, логирование и мониторинг всех аспектов вашей ИИ-системы в проде. Это как система мониторинга пациента в больнице — показатели жизнедеятельности, алерты и детальные записи всего. Ключевые метрики — задержка и стоимость запроса, а данные помогают выстроить стратегию guardrails.

Представьте это как мониторинг пациента в больнице:

1. Инструментируй все вызовы LLM: Логируй каждый запрос: текст промпта, текст ответа, количество токенов (вход/выход), задержку (мс), модель и стоимость
2. Настрой дашборды: Отслеживай стоимость/день, p95 задержку, процент ошибок и токены/запрос — визуализируй тренды, а не только текущие значения
3. Создай алерты: Алерты на: скачок стоимости > 2x от среднего, p95 задержка > 5с, процент ошибок > 5%, падение качества > 10%
4. Анализируй трейсы на узкие места: Разбирай медленные запросы — раздутый контекст? Промах кэша? Неподходящая модель? Каждый трейс рассказывает историю
5. Итерируй промпты на основе данных: Используй данные observability для нахождения и исправления худших промптов — топ 10% самых дорогих промптов обычно составляют 50%+ расходов

Что мониторить

Производительность: Отслеживайте p50, p95, p99 задержку по эндпоинтам — p95 > 3с означает, что 5% пользователей ждут слишком долго
Отладка трейса: Пример трейса: запрос (5мс) -> сборка промпта (120мс) -> LLM API (4200мс) -> гарантия (50мс) -> ответ. Шаг LLM в 10 раз медленнее ожидаемого — возможные причины: раздутый контекст, перегрузка модели или промах кэша
Стоимость: Отслеживайте стоимость-за-диалог (не только за запрос) — многоходовый чат может стоить в 10-50 раз больше одного обмена
Качество: Отслеживайте процент галлюцинаций, соотношение лайков/дизлайков и оценки релевантности — деградация качества бесшумна без метрик

Интересный факт: Команды, добавляющие observability с первого дня, обычно находят возможности сократить затраты на 30-40% в первый же месяц, просто увидев реальные паттерны использования — большинство обнаруживают, что их самые длинные промпты одновременно самые неэффективные.

Попробуйте сами!

Используй интерактивный дашборд ниже, чтобы увидеть, как выглядит мониторинг LLM и понять ключевые метрики для отслеживания.

Попробуй сам

Интерактивное демо этой техники

Сравнение техник

Демо режим

Предзаписанные ответы

ЗадачаНачинающийАнализ

Отладить проблему с качеством ответов LLM в production

Без техники

Промпт

Пользователи жалуются что бот отвечает некорректно. Нет логов. Как найти проблему?

Ответ

Попробуйте переписать промпт и посмотреть, станет ли лучше. Может быть, модель не подходит для задачи.

Токены:25/30

Время:350ms

Качество:

С Наблюдаемость

С техникой

Промпт

Ты — SRE-инженер, специализирующийся на LLM-системах. Проблема: пользователи жалуются на некорректные ответы бота. Нет логов. Спроектируй минимальную систему observability для LLM: 1. Что логировать на каждый запрос? 2. Какие метрики собирать? 3. Какие алерты настроить? Формат: конкретные поля/метрики с примерами значений.

Ответ

1. Логирование каждого запроса:

{
  "request_id": "req_abc123",
  "timestamp": "2024-01-15T10:30:00Z",
  "user_id": "u_456",
  "prompt": "...",
  "response": "...",
  "model": "gpt-4",
  "tokens_in": 150,
  "tokens_out": 200,
  "latency_ms": 1200,
  "temperature": 0.7,
  "user_rating": null
}

2. Метрики (Prometheus/Grafana):

llm_latency_p95: < 3s (алерт > 5s)
llm_error_rate: < 1% (алерт > 5%)
llm_token_cost_hourly: отслеживать тренд
llm_user_satisfaction: thumbs up/down ratio

3. Алерты:

Latency P95 > 5s → PagerDuty
Error rate > 5% за 5 мин → Slack
Satisfaction < 70% за час → email команде

👁️Без логов невозможно понять: это плохой промпт, неправильная температура или галлюцинации?

🧠Минимальный набор: request_id + prompt + response + метрики → воспроизводимость любой проблемы

✅Алерты на latency + error rate + satisfaction ловят проблемы ДО массовых жалоб

Токены:95/250

Время:1500ms

Качество:

Почему это работает

LLM observability — это минимум: лог каждого запроса (prompt + response + метрики) + дашборд (latency, error rate, satisfaction) + алерты. Без этого вы отлаживаете вслепую.

1 / 2

Практика

Создайте бесплатный аккаунт для решения челленджей

4 челленджей с AI-проверкой для этого урока

Связанные уроки:Cost Optimization Guardrails

Этот урок — часть структурированного курса по LLM.

Мой путь обучения

Урок 4

Мониторинг LLM

Наблюдаемость и отладка

Решение: Мониторинг здоровья твоего ИИ

Представьте это как мониторинг пациента в больнице:

1. Инструментируй все вызовы LLM: Логируй каждый запрос: текст промпта, текст ответа, количество токенов (вход/выход), задержку (мс), модель и стоимость
2. Настрой дашборды: Отслеживай стоимость/день, p95 задержку, процент ошибок и токены/запрос — визуализируй тренды, а не только текущие значения
3. Создай алерты: Алерты на: скачок стоимости > 2x от среднего, p95 задержка > 5с, процент ошибок > 5%, падение качества > 10%
4. Анализируй трейсы на узкие места: Разбирай медленные запросы — раздутый контекст? Промах кэша? Неподходящая модель? Каждый трейс рассказывает историю
5. Итерируй промпты на основе данных: Используй данные observability для нахождения и исправления худших промптов — топ 10% самых дорогих промптов обычно составляют 50%+ расходов

Что мониторить

Производительность: Отслеживайте p50, p95, p99 задержку по эндпоинтам — p95 > 3с означает, что 5% пользователей ждут слишком долго
Отладка трейса: Пример трейса: запрос (5мс) -> сборка промпта (120мс) -> LLM API (4200мс) -> гарантия (50мс) -> ответ. Шаг LLM в 10 раз медленнее ожидаемого — возможные причины: раздутый контекст, перегрузка модели или промах кэша
Стоимость: Отслеживайте стоимость-за-диалог (не только за запрос) — многоходовый чат может стоить в 10-50 раз больше одного обмена
Качество: Отслеживайте процент галлюцинаций, соотношение лайков/дизлайков и оценки релевантности — деградация качества бесшумна без метрик

Попробуйте сами!

Попробуй сам

Интерактивное демо этой техники

Сравнение техник

Демо режим

Предзаписанные ответы

ЗадачаНачинающийАнализ

Отладить проблему с качеством ответов LLM в production

Без техники

Промпт

Пользователи жалуются что бот отвечает некорректно. Нет логов. Как найти проблему?

Ответ

Попробуйте переписать промпт и посмотреть, станет ли лучше. Может быть, модель не подходит для задачи.

Токены:25/30

Время:350ms

Качество:

С Наблюдаемость

С техникой

Промпт

Ответ

1. Логирование каждого запроса:

{
  "request_id": "req_abc123",
  "timestamp": "2024-01-15T10:30:00Z",
  "user_id": "u_456",
  "prompt": "...",
  "response": "...",
  "model": "gpt-4",
  "tokens_in": 150,
  "tokens_out": 200,
  "latency_ms": 1200,
  "temperature": 0.7,
  "user_rating": null
}

2. Метрики (Prometheus/Grafana):

llm_latency_p95: < 3s (алерт > 5s)
llm_error_rate: < 1% (алерт > 5%)
llm_token_cost_hourly: отслеживать тренд
llm_user_satisfaction: thumbs up/down ratio

3. Алерты:

Latency P95 > 5s → PagerDuty
Error rate > 5% за 5 мин → Slack
Satisfaction < 70% за час → email команде

👁️Без логов невозможно понять: это плохой промпт, неправильная температура или галлюцинации?

🧠Минимальный набор: request_id + prompt + response + метрики → воспроизводимость любой проблемы

✅Алерты на latency + error rate + satisfaction ловят проблемы ДО массовых жалоб

Токены:95/250

Время:1500ms

Качество:

Почему это работает

1 / 2

Практика

Создайте бесплатный аккаунт для решения челленджей

4 челленджей с AI-проверкой для этого урока

Связанные уроки:Cost Optimization Guardrails

Этот урок — часть структурированного курса по LLM.

Мой путь обучения