Что такое механизм внимания в Трансформерах?

Внимание — это механизм, позволяющий модели взвешивать важность разных частей входа при обработке каждого токена. Он вычисляет оценки сходства между векторами Query, Key и Value, чтобы определить, на какие токены фокусироваться.

Что такое self-attention и cross-attention?

Self-attention сравнивает токены внутри одной последовательности (например, слова в предложении обращают внимание друг на друга). Cross-attention сравнивает токены из разных последовательностей (например, выход энкодера обращает внимание на вход декодера в задачах перевода).

Зачем Трансформерам multi-head attention?

Multi-head attention позволяет модели обращать внимание на разные аспекты входа одновременно. Например, одна голова может фокусироваться на синтаксисе, другая на семантике, третья на дальних зависимостях. Эта параллельная обработка улучшает выразительность модели.

Как работают веса внимания?

Веса внимания — это вероятности (от 0 до 1), показывающие, сколько фокуса должен получить каждый токен. Высокие веса означают сильную релевантность. Веса вычисляются с помощью softmax над скалярными произведениями Query и Key векторов.

Урок 3

Механизм внимания

На что обращать внимание

Проблема: Когда ты читаешь «Замок на двери был сломан», ты сразу понимаешь, что «замок» — это дверной замок, а не средневековая крепость. Но как модель, которая обрабатывает слова как числа, может понять, что одно и то же слово означает разное в разных контекстах?

Решение: Attention — модель учится фокусироваться

Attention (механизм внимания) позволяет модели смотреть на все остальные слова при обработке каждого слова, решая, какие из них наиболее важны для понимания текущего. Это как прожектор, освещающий нужные части предложения.

Для слова «замок» механизм внимания сфокусируется на «двери» и «сломан» — и поймёт, что это дверной замок. В другом предложении («Мы посетили старинный замок на горе») он обратит внимание на «старинный» и «горе» — и поймёт, что это крепость.

Attention — ключевой строительный блок архитектуры Трансформер, на которой основаны все современные LLM. До attention каждое слово представлялось фиксированным эмбеддингом, который не менялся в зависимости от контекста.

Представьте это как библиотекаря, который помогает найти нужную книгу:

1. Query — «Что я ищу?»: Текущее слово создаёт вектор-«вопрос». Для слова «замок» запрос по сути: «На какой контекст мне обратить внимание?»
2. Key — «Что я могу предложить?»: Каждое другое слово создаёт вектор-«ярлык», описывающий своё содержание. «Дверь» говорит: «Я про помещения и входы.» «Гора» говорит: «Я про природу и высоту.»
3. Сопоставление — сравниваем Query со всеми Keys: Модель вычисляет, насколько хорошо каждый Key соответствует Query. Высокое совпадение = высокий вес внимания. «Дверь» получает высокий вес, когда «замок» — про запирающее устройство.
4. Value — собираем нужную информацию: Каждое слово также имеет вектор «содержания» (Value). Модель берёт взвешенную комбинацию всех Value на основе весов внимания — в основном от слов с высокими оценками.
5. Multi-Head — несколько точек зрения сразу: Одна «голова» внимания может фокусироваться на грамматике (подлежащее-сказуемое), другая на смысле (дверь-замок), третья на позиции (соседние слова). GPT-4 использует 96 голов в каждом слое!

Это называется self-attention (самовнимание), потому что модель обращает внимание на свой же вход — каждое слово спрашивает обо всех остальных словах в том же тексте.

Почему Attention так важен?

Понимание контекста: одно и то же слово получает разные представления в зависимости от окружения — «замок» становится «дверным замком» или «крепостью»
Дальние связи: attention может связывать слова далеко друг от друга — местоимение «она» на позиции 100 может обратить внимание на имя на позиции 5
Параллельная обработка: в отличие от старых моделей (RNN), которые читали слово за словом, attention обрабатывает ВСЕ слова сразу на GPU — обучение намного быстрее

Интересный факт: Знаменитая статья «Attention Is All You Need» (2017) показала, что не нужны сложные рекуррентные сети — одного внимания достаточно для создания лучших языковых моделей. Эта единственная идея породила GPT, BERT, T5, и в итоге ChatGPT и Claude!

Попробуйте сами!

Ниже — интерактивная визуализация. Посмотри, как разные слова «обращают внимание» друг на друга — наведи на слово, чтобы увидеть его паттерн внимания!

👁️ Как AI понимает контекст?

AI смотрит на другие слова в предложении, чтобы понять смысл каждого слова.

Пример 1/3

Кот

сидел

на

коврике

💡 Главное понять:

•Внимание (Attention) — это механизм, который позволяет AI "смотреть" на разные части текста.
•Сила внимания показывает насколько важно одно слово для понимания другого.
•Это как читать предложение и помнить ключевые слова.

Подробнее: как работает Attention

Query, Key, Value — аналогия

Представьте библиотеку. Вы приходите с вопросом (Query): «Мне нужна книга про космос». Каждая книга на полке имеет описание (Key): «Астрономия», «Кулинария», «Физика». Механизм внимания сравнивает ваш вопрос с каждым описанием и определяет, какие книги наиболее релевантны. Затем он берёт содержимое (Value) релевантных книг и комбинирует их для ответа.

Зачем несколько голов (Multi-Head)?

Одна голова внимания видит текст только с одной стороны. Как если бы в библиотеке был только один библиотекарь, который ищет только по теме. Multi-head attention — это несколько «библиотекарей» одновременно: один ищет по теме, другой — по автору, третий — по году издания. Вместе они дают более полную картину связей между словами: грамматические, смысловые и позиционные.

Попробуй сам

Интерактивное демо этой техники

Сравнение техник

Демо режим

Предзаписанные ответы

ЗадачаНачинающийАнализ

Извлечь ключевое требование из длинного технического задания

Без техники

Промпт

Вот техническое задание. Нам нужна система для управления задачами. Она должна поддерживать создание задач, назначение исполнителей, отслеживание статусов. Нужна интеграция с календарём, уведомления по email, мобильное приложение, дашборд с аналитикой, экспорт в PDF, поддержка нескольких языков, тёмная тема. Критически важно: система должна работать оффлайн и синхронизироваться при появлении интернета.

Ответ

Основные требования к системе управления задачами:

Создание и назначение задач
Интеграция с календарём
Email-уведомления
Мобильное приложение
Дашборд аналитики
Экспорт в PDF
Мультиязычность
Тёмная тема

Токены:88/65

Время:480ms

Качество:

С Внимание

С техникой

Промпт

**КРИТИЧЕСКИ ВАЖНО: система должна работать оффлайн и синхронизироваться при появлении интернета.** Дополнительные требования: создание задач, назначение исполнителей, календарь, уведомления, мобильное приложение, дашборд, PDF-экспорт, мультиязычность, тёмная тема. Какое архитектурное решение определяет всю систему? Начни с него.

Ответ

Ключевое архитектурное требование: OFFLINE-FIRST.

Это определяет всё: нужна локальная база данных (SQLite/IndexedDB), CRDT или conflict resolution для синхронизации, Service Worker для PWA. Остальные фичи (календарь, PDF, уведомления) — стандартные и реализуемы на любом стеке. Но offline-sync меняет выбор архитектуры кардинально.

👁️В baseline критическое требование «оффлайн» стоит в конце — внимание модели к нему ослаблено

🧠Primacy effect: информация в начале промпта получает больше внимания при генерации ответа

✅Переместив критическое требование в начало + выделив жирным, мы направили внимание модели

Токены:82/70

Время:510ms

Качество:

Почему это работает

Механизм внимания трансформера сильнее «видит» начало и конец промпта (primacy/recency). Размещайте критически важную информацию в этих позициях, а не в середине.

1 / 2

Практика

Создайте бесплатный аккаунт для решения челленджей

4 челленджей с AI-проверкой для этого урока

Связанные уроки:Embeddings Transformers

Этот урок — часть структурированного курса по LLM.

Мой путь обучения

Урок 3

Механизм внимания

На что обращать внимание

Решение: Attention — модель учится фокусироваться

Представьте это как библиотекаря, который помогает найти нужную книгу:

1. Query — «Что я ищу?»: Текущее слово создаёт вектор-«вопрос». Для слова «замок» запрос по сути: «На какой контекст мне обратить внимание?»
2. Key — «Что я могу предложить?»: Каждое другое слово создаёт вектор-«ярлык», описывающий своё содержание. «Дверь» говорит: «Я про помещения и входы.» «Гора» говорит: «Я про природу и высоту.»
3. Сопоставление — сравниваем Query со всеми Keys: Модель вычисляет, насколько хорошо каждый Key соответствует Query. Высокое совпадение = высокий вес внимания. «Дверь» получает высокий вес, когда «замок» — про запирающее устройство.
4. Value — собираем нужную информацию: Каждое слово также имеет вектор «содержания» (Value). Модель берёт взвешенную комбинацию всех Value на основе весов внимания — в основном от слов с высокими оценками.
5. Multi-Head — несколько точек зрения сразу: Одна «голова» внимания может фокусироваться на грамматике (подлежащее-сказуемое), другая на смысле (дверь-замок), третья на позиции (соседние слова). GPT-4 использует 96 голов в каждом слое!

Почему Attention так важен?

Понимание контекста: одно и то же слово получает разные представления в зависимости от окружения — «замок» становится «дверным замком» или «крепостью»
Дальние связи: attention может связывать слова далеко друг от друга — местоимение «она» на позиции 100 может обратить внимание на имя на позиции 5
Параллельная обработка: в отличие от старых моделей (RNN), которые читали слово за словом, attention обрабатывает ВСЕ слова сразу на GPU — обучение намного быстрее

Попробуйте сами!

👁️ Как AI понимает контекст?

AI смотрит на другие слова в предложении, чтобы понять смысл каждого слова.

Пример 1/3

Кот

сидел

на

коврике

💡 Главное понять:

•Внимание (Attention) — это механизм, который позволяет AI "смотреть" на разные части текста.
•Сила внимания показывает насколько важно одно слово для понимания другого.
•Это как читать предложение и помнить ключевые слова.

Подробнее: как работает Attention

Query, Key, Value — аналогия

Зачем несколько голов (Multi-Head)?

Попробуй сам

Интерактивное демо этой техники

Сравнение техник

Демо режим

Предзаписанные ответы

ЗадачаНачинающийАнализ

Извлечь ключевое требование из длинного технического задания

Без техники

Промпт

Ответ

Основные требования к системе управления задачами:

Создание и назначение задач
Интеграция с календарём
Email-уведомления
Мобильное приложение
Дашборд аналитики
Экспорт в PDF
Мультиязычность
Тёмная тема

Токены:88/65

Время:480ms

Качество:

С Внимание

С техникой

Промпт

Ответ

Ключевое архитектурное требование: OFFLINE-FIRST.

👁️В baseline критическое требование «оффлайн» стоит в конце — внимание модели к нему ослаблено

🧠Primacy effect: информация в начале промпта получает больше внимания при генерации ответа

✅Переместив критическое требование в начало + выделив жирным, мы направили внимание модели

Токены:82/70

Время:510ms

Качество:

Почему это работает

1 / 2

Практика

Создайте бесплатный аккаунт для решения челленджей

4 челленджей с AI-проверкой для этого урока

Связанные уроки:Embeddings Transformers

Этот урок — часть структурированного курса по LLM.

Мой путь обучения