Архитектура Трансформера
Полная картина
Проблема: До 2017 года языковые модели обрабатывали текст по одному слову, как чтение предложения через лупу. Они забывали начало, добравшись до конца длинного текста. Как построить модель, которая видит весь текст сразу?
Решение: Трансформер — фабрика по пониманию языка
Трансформер — это архитектура нейронной сети, которая произвела революцию в ИИ в 2017 году. Вместо последовательного чтения текста он обрабатывает все токены параллельно, используя механизм внимания, который мы изучили в предыдущем уроке.
Представь его как фабрику со специализированными отделами. Текст поступает на фабрику, проходит через несколько этапов обработки и на выходе превращается в предсказание следующего токена. Каждый этап углубляет понимание текста.
Представьте это как конвейер фабрики по обработке языка:
- 1. Токенизация + Эмбеддинги: Текст разбивается на токены через токенизацию, и каждый токен становится числовым вектором (эмбеддингом) — как выдача каждому слову бейджа.
- 2. Позиционное кодирование: Поскольку модель обрабатывает все токены параллельно (а не по очереди), она не знает порядок слов! Позиционное кодирование решает это, добавляя к эмбеддингу каждого токена уникальный набор чисел, зависящий от его позиции. Представь нумерацию страниц в книге — без неё перемешанные страницы теряют смысл. Для каждой позиции (1-я, 2-я, 3-я…) генерируется специальный вектор и складывается с эмбеддингом токена. После этого модель знает, что «собака кусает человека» ≠ «человек кусает собаку».
- 3. Слои Self-Attention: Каждый токен «смотрит» на все остальные токены, чтобы понять контекст. Слово «замок» узнаёт, что речь о «дверном замке» (а не о «замке на горе»), обращая внимание на соседние слова вроде «дверь» и «ключ».
- 4. Слои прямого распространения (FFN): После того как attention выяснил связи между словами, слои FFN обрабатывают каждый токен независимо — как специалист, получивший сводку и анализирующий своё задание. Каждый FFN — это два линейных преобразования с функцией активации между ними («фильтр + усилитель»). Именно здесь живут факты и знания: примерно 2/3 параметров модели хранятся в слоях FFN. Например, факт «Париж — столица Франции» закодирован именно в этих весах.
- 5. Нормализация слоёв (Layer Norm): Между каждым этапом нормализация слоёв удерживает числа в здоровом диапазоне. Зачем это нужно? После множества умножений числа имеют тенденцию либо «взрываться» (→ бесконечность), либо «исчезать» (→ ноль), делая модель необучаемой. Layer Norm пересчитывает значения каждого токена так, чтобы среднее и разброс были стабильными — как термостат, поддерживающий нужную температуру. Без этого обучение глубоких сетей (96+ слоёв в GPT-4!) было бы невозможно. Современные Transformer-ы используют «Pre-Norm» — нормализация до attention и FFN, а не после.
- 6. Выход: предсказание следующего токена: После всех слоёв модель выдаёт распределение вероятностей по словарю — «следующее слово с вероятностью 90% — 'Париж', 5% — 'Лондон', ...». Шаги 3-5 повторяются много раз (слои уложены друг на друга).
Современные LLM вроде GPT-4 и Claude используют Transformer только с декодером — у них только «предсказывающая» половина исходной архитектуры, с каузальной маской, чтобы каждый токен видел только токены до него (не после).
Энкодер vs Декодер — в чём разница?
- Только энкодер (BERT): видит все токены сразу (двунаправленный). Отлично для понимания: классификация, поиск, анализ тональности.
- Только декодер (GPT, Claude, LLaMA): каждый токен видит только предыдущие (каузальный). Отлично для генерации: чат, письмо, код. Это то, что используют большинство современных LLM.
- Энкодер-Декодер (T5, исходный Transformer): энкодер понимает ввод, декодер генерирует вывод. Используется для перевода, суммаризации.
Интересный факт: Оригинальная статья «Attention Is All You Need» (2017) представила Transformer для машинного перевода. Авторы, вероятно, не представляли, что через 7 лет Transformer-декодеры будут писать код, сочинять стихи и сдавать юридические экзамены! По оценкам, GPT-4 имеет 1,8 триллиона параметров в 120 слоях Transformer.
Попробуйте сами!
Ниже — интерактивная визуализация, показывающая как данные проходят через Transformer шаг за шагом!
🤖 Как работает Transformer?
Проследите, как текст превращается в предсказание за 6 шагов.
Вы вводите вопрос или запрос — на вход поступает текст.
Пользователь вводит запрос:
💡 Главное понять:
- •Трансформер — это конвейер: текст → токены → числа → внимание → обработка → предсказание.
- •Главная магия в механизме внимания — он находит связи между словами.
- •Больше слоёв = глубже понимание (GPT-4 имеет 96+ слоёв).
Попробуй сам
Интерактивное демо этой техники
Получить актуальную цену акций компании Tesla
На момент моих последних данных (2024) акции Tesla торговались около $250. Однако я не имею доступа к данным в реальном времени. Пожалуйста, проверьте актуальную цену на финансовых сайтах.
Ключевые паттерны:
- Сплит (авг. 2020, 5:1): рост +80% за месяц до сплита — розничные инвесторы покупали на ожиданиях.
- S&P 500 (дек. 2020): скачок +60% за месяц — индексные фонды были обязаны купить.
- Конкуренция (2023-2024): давление от BYD и европейских EV — ценовые войны сузили маржу.
Паттерн: Tesla реагирует на «нарративные» события сильнее, чем на финансовые показатели.
Трансформеры не имеют доступа к реальному времени — они генерируют текст из обучающих данных. Используйте их для анализа и рассуждений, а для актуальных данных подключайте внешние инструменты.
Создайте бесплатный аккаунт для решения челленджей
4 челленджей с AI-проверкой для этого урока
Этот урок — часть структурированного курса по LLM.
Мой путь обучения