Что такое архитектура Трансформера?

Трансформер — это нейросетевая архитектура, представленная в статье «Attention Is All You Need» (2017). Она использует механизм self-attention вместо рекуррентных слоёв, что позволяет обрабатывать последовательности параллельно и эффективно улавливать дальние зависимости.

Чем отличаются encoder и decoder в Трансформере?

Encoder обрабатывает входную последовательность и создаёт контекстные представления каждого токена. Decoder генерирует выходную последовательность токен за токеном, используя маскированное внимание и cross-attention к выходу encoder. GPT использует только decoder, BERT — только encoder, а T5 — оба.

Зачем нужно позиционное кодирование?

В отличие от RNN, Трансформер обрабатывает все токены параллельно и не имеет встроенного понятия порядка. Позиционное кодирование добавляет информацию о позиции каждого токена в последовательности, чтобы модель понимала порядок слов.

Какие модели построены на архитектуре Трансформера?

Все современные LLM используют Трансформер: GPT-4 и ChatGPT (decoder-only), Claude (decoder-only), Llama (decoder-only), BERT (encoder-only), T5 (encoder-decoder). Архитектура также применяется в Vision Transformers для изображений и Whisper для речи.

Урок 4

Архитектура Трансформера

Полная картина

Проблема: До 2017 года языковые модели обрабатывали текст по одному слову, как чтение предложения через лупу. Они забывали начало, добравшись до конца длинного текста. Как построить модель, которая видит весь текст сразу?

Решение: Трансформер — фабрика по пониманию языка

Трансформер — это архитектура нейронной сети, которая произвела революцию в ИИ в 2017 году. Вместо последовательного чтения текста он обрабатывает все токены параллельно, используя механизм внимания, который мы изучили в предыдущем уроке.

Представь его как фабрику со специализированными отделами. Текст поступает на фабрику, проходит через несколько этапов обработки и на выходе превращается в предсказание следующего токена. Каждый этап углубляет понимание текста.

Представьте это как конвейер фабрики по обработке языка:

1. Токенизация + Эмбеддинги: Текст разбивается на токены через токенизацию, и каждый токен становится числовым вектором (эмбеддингом) — как выдача каждому слову бейджа.
2. Позиционное кодирование: Поскольку модель обрабатывает все токены параллельно (а не по очереди), она не знает порядок слов! Позиционное кодирование решает это, добавляя к эмбеддингу каждого токена уникальный набор чисел, зависящий от его позиции. Представь нумерацию страниц в книге — без неё перемешанные страницы теряют смысл. Для каждой позиции (1-я, 2-я, 3-я…) генерируется специальный вектор и складывается с эмбеддингом токена. После этого модель знает, что «собака кусает человека» ≠ «человек кусает собаку».
3. Слои Self-Attention: Каждый токен «смотрит» на все остальные токены, чтобы понять контекст. Слово «замок» узнаёт, что речь о «дверном замке» (а не о «замке на горе»), обращая внимание на соседние слова вроде «дверь» и «ключ».
4. Слои прямого распространения (FFN): После того как attention выяснил связи между словами, слои FFN обрабатывают каждый токен независимо — как специалист, получивший сводку и анализирующий своё задание. Каждый FFN — это два линейных преобразования с функцией активации между ними («фильтр + усилитель»). Именно здесь живут факты и знания: примерно 2/3 параметров модели хранятся в слоях FFN. Например, факт «Париж — столица Франции» закодирован именно в этих весах.
5. Нормализация слоёв (Layer Norm): Между каждым этапом нормализация слоёв удерживает числа в здоровом диапазоне. Зачем это нужно? После множества умножений числа имеют тенденцию либо «взрываться» (→ бесконечность), либо «исчезать» (→ ноль), делая модель необучаемой. Layer Norm пересчитывает значения каждого токена так, чтобы среднее и разброс были стабильными — как термостат, поддерживающий нужную температуру. Без этого обучение глубоких сетей (96+ слоёв в GPT-4!) было бы невозможно. Современные Transformer-ы используют «Pre-Norm» — нормализация до attention и FFN, а не после.
6. Выход: предсказание следующего токена: После всех слоёв модель выдаёт распределение вероятностей по словарю — «следующее слово с вероятностью 90% — 'Париж', 5% — 'Лондон', ...». Шаги 3-5 повторяются много раз (слои уложены друг на друга).

Современные LLM вроде GPT-4 и Claude используют Transformer только с декодером — у них только «предсказывающая» половина исходной архитектуры, с каузальной маской, чтобы каждый токен видел только токены до него (не после).

Энкодер vs Декодер — в чём разница?

Только энкодер (BERT): видит все токены сразу (двунаправленный). Отлично для понимания: классификация, поиск, анализ тональности.
Только декодер (GPT, Claude, LLaMA): каждый токен видит только предыдущие (каузальный). Отлично для генерации: чат, письмо, код. Это то, что используют большинство современных LLM.
Энкодер-Декодер (T5, исходный Transformer): энкодер понимает ввод, декодер генерирует вывод. Используется для перевода, суммаризации.

Интересный факт: Оригинальная статья «Attention Is All You Need» (2017) представила Transformer для машинного перевода. Авторы, вероятно, не представляли, что через 7 лет Transformer-декодеры будут писать код, сочинять стихи и сдавать юридические экзамены! По оценкам, GPT-4 имеет 1,8 триллиона параметров в 120 слоях Transformer.

Попробуйте сами!

Ниже — интерактивная визуализация, показывающая как данные проходят через Transformer шаг за шагом!

🤖 Как работает Transformer?

Проследите, как текст превращается в предсказание за 6 шагов.

📝Ввод

🧩Токены

📍Вектора

👁️Внимание

🔄Слои

🎯Выход

📝

Шаг 1

Вы вводите вопрос или запрос — на вход поступает текст.

Пользователь вводит запрос:

💡 Главное понять:

•Трансформер — это конвейер: текст → токены → числа → внимание → обработка → предсказание.
•Главная магия в механизме внимания — он находит связи между словами.
•Больше слоёв = глубже понимание (GPT-4 имеет 96+ слоёв).

Попробуй сам

Интерактивное демо этой техники

Сравнение техник

Демо режим

Предзаписанные ответы

ЗадачаНачинающийАнализ

Получить актуальную цену акций компании Tesla

Без техники

Промпт

Какая сейчас цена акций Tesla?

Ответ

На момент моих последних данных (2024) акции Tesla торговались около $250. Однако я не имею доступа к данным в реальном времени. Пожалуйста, проверьте актуальную цену на финансовых сайтах.

Токены:12/45

Время:380ms

Качество:

С Трансформеры

С техникой

Промпт

Проанализируй исторические факторы, которые влияли на цену акций Tesla в 2020-2024: 1. Сплит акций 2. Включение в S&P 500 3. Конкуренция в EV-секторе Какие паттерны можно выделить?

Ответ

Ключевые паттерны:

Сплит (авг. 2020, 5:1): рост +80% за месяц до сплита — розничные инвесторы покупали на ожиданиях.
S&P 500 (дек. 2020): скачок +60% за месяц — индексные фонды были обязаны купить.
Конкуренция (2023-2024): давление от BYD и европейских EV — ценовые войны сузили маржу.

Паттерн: Tesla реагирует на «нарративные» события сильнее, чем на финансовые показатели.

👁️Трансформеры генерируют текст на основе обучающих данных — они не подключены к интернету

🧠Запрос реальных данных (текущая цена) — это задача для API/инструмента, не для языковой модели

✅Трансформеры сильны в анализе паттернов, рассуждениях и синтезе — переформулируем задачу под эти сильные стороны

Токены:45/120

Время:680ms

Качество:

Почему это работает

Трансформеры не имеют доступа к реальному времени — они генерируют текст из обучающих данных. Используйте их для анализа и рассуждений, а для актуальных данных подключайте внешние инструменты.

1 / 2

Практика

Создайте бесплатный аккаунт для решения челленджей

4 челленджей с AI-проверкой для этого урока

Связанные уроки:Attention Inference

Этот урок — часть структурированного курса по LLM.

Мой путь обучения

Урок 4

Архитектура Трансформера

Полная картина

Решение: Трансформер — фабрика по пониманию языка

Представьте это как конвейер фабрики по обработке языка:

1. Токенизация + Эмбеддинги: Текст разбивается на токены через токенизацию, и каждый токен становится числовым вектором (эмбеддингом) — как выдача каждому слову бейджа.
2. Позиционное кодирование: Поскольку модель обрабатывает все токены параллельно (а не по очереди), она не знает порядок слов! Позиционное кодирование решает это, добавляя к эмбеддингу каждого токена уникальный набор чисел, зависящий от его позиции. Представь нумерацию страниц в книге — без неё перемешанные страницы теряют смысл. Для каждой позиции (1-я, 2-я, 3-я…) генерируется специальный вектор и складывается с эмбеддингом токена. После этого модель знает, что «собака кусает человека» ≠ «человек кусает собаку».
3. Слои Self-Attention: Каждый токен «смотрит» на все остальные токены, чтобы понять контекст. Слово «замок» узнаёт, что речь о «дверном замке» (а не о «замке на горе»), обращая внимание на соседние слова вроде «дверь» и «ключ».
4. Слои прямого распространения (FFN): После того как attention выяснил связи между словами, слои FFN обрабатывают каждый токен независимо — как специалист, получивший сводку и анализирующий своё задание. Каждый FFN — это два линейных преобразования с функцией активации между ними («фильтр + усилитель»). Именно здесь живут факты и знания: примерно 2/3 параметров модели хранятся в слоях FFN. Например, факт «Париж — столица Франции» закодирован именно в этих весах.
5. Нормализация слоёв (Layer Norm): Между каждым этапом нормализация слоёв удерживает числа в здоровом диапазоне. Зачем это нужно? После множества умножений числа имеют тенденцию либо «взрываться» (→ бесконечность), либо «исчезать» (→ ноль), делая модель необучаемой. Layer Norm пересчитывает значения каждого токена так, чтобы среднее и разброс были стабильными — как термостат, поддерживающий нужную температуру. Без этого обучение глубоких сетей (96+ слоёв в GPT-4!) было бы невозможно. Современные Transformer-ы используют «Pre-Norm» — нормализация до attention и FFN, а не после.
6. Выход: предсказание следующего токена: После всех слоёв модель выдаёт распределение вероятностей по словарю — «следующее слово с вероятностью 90% — 'Париж', 5% — 'Лондон', ...». Шаги 3-5 повторяются много раз (слои уложены друг на друга).

Энкодер vs Декодер — в чём разница?

Только энкодер (BERT): видит все токены сразу (двунаправленный). Отлично для понимания: классификация, поиск, анализ тональности.
Только декодер (GPT, Claude, LLaMA): каждый токен видит только предыдущие (каузальный). Отлично для генерации: чат, письмо, код. Это то, что используют большинство современных LLM.
Энкодер-Декодер (T5, исходный Transformer): энкодер понимает ввод, декодер генерирует вывод. Используется для перевода, суммаризации.

Попробуйте сами!

Ниже — интерактивная визуализация, показывающая как данные проходят через Transformer шаг за шагом!

🤖 Как работает Transformer?

Проследите, как текст превращается в предсказание за 6 шагов.

📝Ввод

🧩Токены

📍Вектора

👁️Внимание

🔄Слои

🎯Выход

📝

Шаг 1

Вы вводите вопрос или запрос — на вход поступает текст.

Пользователь вводит запрос:

💡 Главное понять:

•Трансформер — это конвейер: текст → токены → числа → внимание → обработка → предсказание.
•Главная магия в механизме внимания — он находит связи между словами.
•Больше слоёв = глубже понимание (GPT-4 имеет 96+ слоёв).

Попробуй сам

Интерактивное демо этой техники

Сравнение техник

Демо режим

Предзаписанные ответы

ЗадачаНачинающийАнализ

Получить актуальную цену акций компании Tesla

Без техники

Промпт

Какая сейчас цена акций Tesla?

Ответ

Токены:12/45

Время:380ms

Качество:

С Трансформеры

С техникой

Промпт

Ответ

Ключевые паттерны:

Сплит (авг. 2020, 5:1): рост +80% за месяц до сплита — розничные инвесторы покупали на ожиданиях.
S&P 500 (дек. 2020): скачок +60% за месяц — индексные фонды были обязаны купить.
Конкуренция (2023-2024): давление от BYD и европейских EV — ценовые войны сузили маржу.

Паттерн: Tesla реагирует на «нарративные» события сильнее, чем на финансовые показатели.

👁️Трансформеры генерируют текст на основе обучающих данных — они не подключены к интернету

🧠Запрос реальных данных (текущая цена) — это задача для API/инструмента, не для языковой модели

Токены:45/120

Время:680ms

Качество:

Почему это работает

1 / 2

Практика

Создайте бесплатный аккаунт для решения челленджей

4 челленджей с AI-проверкой для этого урока

Связанные уроки:Attention Inference

Этот урок — часть структурированного курса по LLM.

Мой путь обучения