Prompt Caching
Кэшируйте статические префиксы промптов для экономии и ускорения
Проблема: У вас продакшн-приложение с 10 000 API-запросов в день. Каждый включает тот же системный промпт на 4 000 токенов. Это 40 миллионов токенов в день только на статику — сотни долларов в месяц за контент, который модель уже "прочитала" тысячи раз.
Решение: Prompt Caching — Запомни, не повторяй
Prompt caching — это функция на уровне API, которая сохраняет обработанный префикс промпта между запросами. Кэшируется только начало — не середина и не конец. Anthropic даёт скидку 90% на кэшированные токены с наценкой 25% на запись кэша. OpenAI кэширует автоматически для промптов свыше 1024 токенов со скидкой 50%. У кэша есть TTL (время жизни) ~5 минут, продлеваемый при каждом попадании. Минимальный размер для кэширования — 1024 токена.
Представьте это как библиотекаря, который запоминает часто запрашиваемые книги и кладёт их на ближнюю полку — первый запрос идёт в хранилище (cache miss), но повторные обслуживаются мгновенно (cache hit):
- 1. Найдите кэшируемый префикс: Найдите стабильную часть: системные инструкции, few-shot примеры, документы. Должна быть идентичной между запросами и располагаться в начале
- 2. Установите точки кэширования: Anthropic: добавьте cache_control маркеры. OpenAI: автоматически для промптов >1024 токенов — просто структурируйте промпт правильно
- 3. Первый запрос (запись кэша): Первый запрос обрабатывает полный промпт и записывает в кэш. Anthropic берёт наценку 25% за запись — это инвестиция
- 4. Последующие запросы (cache hits): Каждый следующий запрос с тем же префиксом: снижение стоимости на 90% и до 85% меньше time-to-first-token. Каждое попадание сбрасывает TTL на 5 минут
Где применять Prompt Caching
- RAG со стабильным системным промптом: Кэшируйте системные инструкции + правила retrieval. Только запрос пользователя и чанки меняются. Идеально для Q&A-систем с большим объёмом
- Few-shot классификация: Кэшируйте 50-100 примеров классификации в префиксе. Каждый новый вход добавляется в конец. Идеально для маршрутизации тикетов или модерации контента
- Пакетная обработка: Обрабатывайте тысячи документов с одним промптом. Кэшируйте инструкции один раз, меняйте только документ. Огромная экономия при масштабе
- Частая ошибка: Размещение динамического контента перед статическим. Если запрос пользователя идёт перед системным промптом, каждый запрос имеет другой префикс и кэш не срабатывает. Всегда: [стабильный префикс] + [динамический суффикс]
Интересный факт: Системный промпт 4 000 токенов по $3/1М входных токенов, 10 000 запросов/день. Без кэша: $120/день ($3 600/мес). С кэшированием Anthropic (95% hit rate): ~$12/день ($360/мес). Снижение на 90% — экономия $3 240/мес от одного изменения в API.
Попробуйте сами!
Исследуйте интерактивную визуализацию ниже, чтобы увидеть, как кэширование влияет на стоимость, задержку и использование токенов в реальных сценариях.
Интерактив: Prompt Caching Explorer
Запрос
Система + User
Проверка кэша
Попробуй сам
Интерактивное демо этой техники
Обработать 10 документов одним и тем же промптом анализа и оценить затраты
10 полных запросов по 8500 токенов. Общая стоимость: $0.255. Каждый запрос обрабатывается с нуля, включая одинаковые 8000 токенов системного промпта и примеров.
1 cache write + 9 cache hits. Стоимость кэшированного префикса (8000 токенов): запись 0.0024. Не-кэшированные токены (500/запрос): 10 * 0.015. Итого: 0.255 — экономия 74%.
При пакетной обработке документов с одинаковым промптом prompt caching экономит 70-90% стоимости входных токенов — нужно лишь добавить cache_control к стабильной части и убедиться, что она идёт первой.
Создайте бесплатный аккаунт для решения челленджей
3 челленджей с AI-проверкой для этого урока
Этот урок — часть структурированного курса по LLM.
Мой путь обучения