Контекстное окно
Лимиты памяти
Проблема: ИИ забывает начало длинных разговоров и не может обрабатывать неограниченный текст. Что ограничивает память ИИ и как работать в этих рамках?
Решение: Понять оперативную память
Окно контекста — это максимальное количество текста, которое LLM может обработать за раз — как оперативная память. Это как RAM — всё, что нужно активно рассматривать, должно поместиться в это пространство. Размер измеряется в токенах, и управление бюджетом токенов — ключ к работе в этих рамках.
Представьте это как оперативную память компьютера:
- 1. Ограниченный размер: 8K, 32K, 128K, 200K токенов в зависимости от модели
- 2. Включает всё: Системный промпт + история разговора + текущее сообщение
- 3. FIFO при заполнении: Самый старый контент удаляется при достижении лимита
- 4. Стоимость растёт с размером: Больше токенов = дороже
Управление контекстом
- Суммаризация: Сжатие старого разговора в резюме
- Выборочное включение: Включать только релевантные предыдущие сообщения
- RAG: Подтягивать релевантные документы динамически вместо хранения всего
- Чанкинг: Разбиение длинных документов на обрабатываемые части
Интересный факт: Окна контекста выросли с 4K токенов (GPT-3) до 200K+ токенов (Claude 3) всего за несколько лет! Но тесты "игла в стоге сена" показывают, что качество внимания падает в очень длинных контекстах — больше не всегда лучше.
Попробуйте сами!
Используй интерактивный пример ниже, чтобы увидеть, как лимиты окна контекста влияют на память ИИ, и изучить стратегии управления ими.
📦 Контекстное окно — это "память" модели. Всё, что не помещается — забывается! Добавляй сообщения и смотри, как заполняется окно.
При переполнении контекста старые сообщения "забываются". Поэтому важно: 1) выбирать модель с достаточным контекстом, 2) сжимать историю, 3) держать важную информацию ближе к концу.
Попробуй сам
Интерактивное демо этой техники
Обработка длинного документа — потеря информации при переполнении окна контекста
В отчёте описаны финансовые показатели компании, рост выручки и планы развития. Критических проблем не выявлено.
Критическая проблема: уязвимость в модуле авторизации (стр. 43). Затронуто 12,000 аккаунтов. Патч установлен 18.01. Рекомендовано провести повторный аудит в Q2.
Больше контекста — не всегда лучше. Стратегическое разбиение документа на секции с резюмированием нерелевантных частей побеждает "вставь всё и молись".
Создайте бесплатный аккаунт для решения челленджей
3 челленджей с AI-проверкой для этого урока
Этот урок — часть структурированного курса по LLM.
Мой путь обучения