Урок 2

Контекстное окно

Лимиты памяти

Проблема: ИИ забывает начало длинных разговоров и не может обрабатывать неограниченный текст. Что ограничивает память ИИ и как работать в этих рамках?

Решение: Понять оперативную память

Окно контекста — это максимальное количество текста, которое LLM может обработать за раз — как оперативная память. Это как RAM — всё, что нужно активно рассматривать, должно поместиться в это пространство. Размер измеряется в токенах, и управление бюджетом токенов — ключ к работе в этих рамках.

Представьте это как оперативную память компьютера:

1. Ограниченный размер: 8K, 32K, 128K, 200K токенов в зависимости от модели
2. Включает всё: Системный промпт + история разговора + текущее сообщение
3. FIFO при заполнении: Самый старый контент удаляется при достижении лимита
4. Стоимость растёт с размером: Больше токенов = дороже

Управление контекстом

Суммаризация: Сжатие старого разговора в резюме
Выборочное включение: Включать только релевантные предыдущие сообщения
RAG: Подтягивать релевантные документы динамически вместо хранения всего
Чанкинг: Разбиение длинных документов на обрабатываемые части

Интересный факт: Окна контекста выросли с 4K токенов (GPT-3) до 200K+ токенов (Claude 3) всего за несколько лет! Но тесты "игла в стоге сена" показывают, что качество внимания падает в очень длинных контекстах — больше не всегда лучше.

Попробуйте сами!

Используй интерактивный пример ниже, чтобы увидеть, как лимиты окна контекста влияют на память ИИ, и изучить стратегии управления ими.

Контекстное окно — память AI

📦 Контекстное окно — это "память" модели. Всё, что не помещается — забывается! Добавляй сообщения и смотри, как заполняется окно.

Выбери модель:

Заполнение контекста:400 / 4,096 tokens

System

User

Assistant

150tСистемный промпт...

50tПривет! Расскажи о...

200tКонечно! Вот информация...

Ключевая идея

При переполнении контекста старые сообщения "забываются". Поэтому важно: 1) выбирать модель с достаточным контекстом, 2) сжимать историю, 3) держать важную информацию ближе к концу.

Попробуй сам

Интерактивное демо этой техники

Сравнение техник

Демо режим

Предзаписанные ответы

ЗадачаНачинающийАнализ

Обработка длинного документа — потеря информации при переполнении окна контекста

Без техники

Промпт

[Документ: 45 страниц корпоративного отчёта, весь текст вставлен целиком] ...(первые 40 страниц о финансах)... ...(страница 43: "Критическая уязвимость обнаружена в модуле авторизации")... ...(страницы 44-45: приложения)... Какие критические проблемы описаны в отчёте?

Ответ

В отчёте описаны финансовые показатели компании, рост выручки и планы развития. Критических проблем не выявлено.

Токены:12000/30

Время:2800ms

Качество:

С Контекстные окна

С техникой

Промпт

Отчёт разбит на секции. Вот ключевые выдержки: [Секция: Финансы — резюме] Выручка: +15% YoY, чистая прибыль: 2.3 млрд руб. [Секция: Безопасность — полный текст] Стр. 43: Критическая уязвимость обнаружена в модуле авторизации. Затронуты 12,000 аккаунтов. Патч выпущен 15.01, установка завершена 18.01. Рекомендация: провести повторный аудит в Q2. [Секция: Приложения — пропущены как нерелевантные] Какие критические проблемы описаны в отчёте?

Ответ

Критическая проблема: уязвимость в модуле авторизации (стр. 43). Затронуто 12,000 аккаунтов. Патч установлен 18.01. Рекомендовано провести повторный аудит в Q2.

👁️При вставке всего документа важная информация со стр. 43 "утонула" в середине

🧠Эффект "lost in the middle" — модели хуже запоминают середину длинного контекста

🧠Разбиение на секции + резюмирование нерелевантных частей экономит токены и фокус

✅Стратегическое управление контекстом важнее, чем "больше контекста = лучше"

Токены:180/42

Время:320ms

Качество:

Почему это работает

Больше контекста — не всегда лучше. Стратегическое разбиение документа на секции с резюмированием нерелевантных частей побеждает "вставь всё и молись".

1 / 2

Практика

Создайте бесплатный аккаунт для решения челленджей

3 челленджей с AI-проверкой для этого урока

Связанные уроки:Tokenization Rag

Этот урок — часть структурированного курса по LLM.

Мой путь обучения

Урок 2

Контекстное окно

Лимиты памяти

Решение: Понять оперативную память

Представьте это как оперативную память компьютера:

1. Ограниченный размер: 8K, 32K, 128K, 200K токенов в зависимости от модели
2. Включает всё: Системный промпт + история разговора + текущее сообщение
3. FIFO при заполнении: Самый старый контент удаляется при достижении лимита
4. Стоимость растёт с размером: Больше токенов = дороже

Управление контекстом

Суммаризация: Сжатие старого разговора в резюме
Выборочное включение: Включать только релевантные предыдущие сообщения
RAG: Подтягивать релевантные документы динамически вместо хранения всего
Чанкинг: Разбиение длинных документов на обрабатываемые части

Попробуйте сами!

Контекстное окно — память AI

Выбери модель:

Заполнение контекста:400 / 4,096 tokens

System

User

Assistant

150tСистемный промпт...

50tПривет! Расскажи о...

200tКонечно! Вот информация...

Ключевая идея

Попробуй сам

Интерактивное демо этой техники

Сравнение техник

Демо режим

Предзаписанные ответы

ЗадачаНачинающийАнализ

Обработка длинного документа — потеря информации при переполнении окна контекста

Без техники

Промпт

Ответ

Токены:12000/30

Время:2800ms

Качество:

С Контекстные окна

С техникой

Промпт

Ответ

👁️При вставке всего документа важная информация со стр. 43 "утонула" в середине

🧠Эффект "lost in the middle" — модели хуже запоминают середину длинного контекста

🧠Разбиение на секции + резюмирование нерелевантных частей экономит токены и фокус

✅Стратегическое управление контекстом важнее, чем "больше контекста = лучше"

Токены:180/42

Время:320ms

Качество:

Почему это работает

1 / 2

Практика

Создайте бесплатный аккаунт для решения челленджей

3 челленджей с AI-проверкой для этого урока

Связанные уроки:Tokenization Rag

Этот урок — часть структурированного курса по LLM.

Мой путь обучения