Механизм внимания
На что обращать внимание
Проблема: Когда ты читаешь «Замок на двери был сломан», ты сразу понимаешь, что «замок» — это дверной замок, а не средневековая крепость. Но как модель, которая обрабатывает слова как числа, может понять, что одно и то же слово означает разное в разных контекстах?
Решение: Attention — модель учится фокусироваться
Attention (механизм внимания) позволяет модели смотреть на все остальные слова при обработке каждого слова, решая, какие из них наиболее важны для понимания текущего. Это как прожектор, освещающий нужные части предложения.
Для слова «замок» механизм внимания сфокусируется на «двери» и «сломан» — и поймёт, что это дверной замок. В другом предложении («Мы посетили старинный замок на горе») он обратит внимание на «старинный» и «горе» — и поймёт, что это крепость.
Attention — ключевой строительный блок архитектуры Трансформер, на которой основаны все современные LLM. До attention каждое слово представлялось фиксированным эмбеддингом, который не менялся в зависимости от контекста.
Представьте это как библиотекаря, который помогает найти нужную книгу:
- 1. Query — «Что я ищу?»: Текущее слово создаёт вектор-«вопрос». Для слова «замок» запрос по сути: «На какой контекст мне обратить внимание?»
- 2. Key — «Что я могу предложить?»: Каждое другое слово создаёт вектор-«ярлык», описывающий своё содержание. «Дверь» говорит: «Я про помещения и входы.» «Гора» говорит: «Я про природу и высоту.»
- 3. Сопоставление — сравниваем Query со всеми Keys: Модель вычисляет, насколько хорошо каждый Key соответствует Query. Высокое совпадение = высокий вес внимания. «Дверь» получает высокий вес, когда «замок» — про запирающее устройство.
- 4. Value — собираем нужную информацию: Каждое слово также имеет вектор «содержания» (Value). Модель берёт взвешенную комбинацию всех Value на основе весов внимания — в основном от слов с высокими оценками.
- 5. Multi-Head — несколько точек зрения сразу: Одна «голова» внимания может фокусироваться на грамматике (подлежащее-сказуемое), другая на смысле (дверь-замок), третья на позиции (соседние слова). GPT-4 использует 96 голов в каждом слое!
Это называется self-attention (самовнимание), потому что модель обращает внимание на свой же вход — каждое слово спрашивает обо всех остальных словах в том же тексте.
Почему Attention так важен?
- Понимание контекста: одно и то же слово получает разные представления в зависимости от окружения — «замок» становится «дверным замком» или «крепостью»
- Дальние связи: attention может связывать слова далеко друг от друга — местоимение «она» на позиции 100 может обратить внимание на имя на позиции 5
- Параллельная обработка: в отличие от старых моделей (RNN), которые читали слово за словом, attention обрабатывает ВСЕ слова сразу на GPU — обучение намного быстрее
Интересный факт: Знаменитая статья «Attention Is All You Need» (2017) показала, что не нужны сложные рекуррентные сети — одного внимания достаточно для создания лучших языковых моделей. Эта единственная идея породила GPT, BERT, T5, и в итоге ChatGPT и Claude!
Попробуйте сами!
Ниже — интерактивная визуализация. Посмотри, как разные слова «обращают внимание» друг на друга — наведи на слово, чтобы увидеть его паттерн внимания!
👁️ Как AI понимает контекст?
AI смотрит на другие слова в предложении, чтобы понять смысл каждого слова.
💡 Главное понять:
- •Внимание (Attention) — это механизм, который позволяет AI "смотреть" на разные части текста.
- •Сила внимания показывает насколько важно одно слово для понимания другого.
- •Это как читать предложение и помнить ключевые слова.
Подробнее: как работает Attention
Query, Key, Value — аналогия
Представьте библиотеку. Вы приходите с вопросом (Query): «Мне нужна книга про космос». Каждая книга на полке имеет описание (Key): «Астрономия», «Кулинария», «Физика». Механизм внимания сравнивает ваш вопрос с каждым описанием и определяет, какие книги наиболее релевантны. Затем он берёт содержимое (Value) релевантных книг и комбинирует их для ответа.
Зачем несколько голов (Multi-Head)?
Одна голова внимания видит текст только с одной стороны. Как если бы в библиотеке был только один библиотекарь, который ищет только по теме. Multi-head attention — это несколько «библиотекарей» одновременно: один ищет по теме, другой — по автору, третий — по году издания. Вместе они дают более полную картину связей между словами: грамматические, смысловые и позиционные.
Попробуй сам
Интерактивное демо этой техники
Извлечь ключевое требование из длинного технического задания
Основные требования к системе управления задачами:
- Создание и назначение задач
- Интеграция с календарём
- Email-уведомления
- Мобильное приложение
- Дашборд аналитики
- Экспорт в PDF
- Мультиязычность
- Тёмная тема
Ключевое архитектурное требование: OFFLINE-FIRST.
Это определяет всё: нужна локальная база данных (SQLite/IndexedDB), CRDT или conflict resolution для синхронизации, Service Worker для PWA. Остальные фичи (календарь, PDF, уведомления) — стандартные и реализуемы на любом стеке. Но offline-sync меняет выбор архитектуры кардинально.
Механизм внимания трансформера сильнее «видит» начало и конец промпта (primacy/recency). Размещайте критически важную информацию в этих позициях, а не в середине.
Создайте бесплатный аккаунт для решения челленджей
4 челленджей с AI-проверкой для этого урока
Этот урок — часть структурированного курса по LLM.
Мой путь обучения