Токенизация
Как AI читает текст
Проблема: Компьютеры понимают только числа, а не текст. Как подать предложение «Я люблю котов» в нейросеть, которая работает только с числами?
Решение: Словарь для ИИ
Токенизация — это процесс разбиения текста на маленькие кусочки, называемые токенами, и присвоение каждому кусочку числа. Представь это как создание словаря, где каждая запись (слово, часть слова или даже отдельный символ) получает уникальный числовой ID.
Современные LLM не разбивают текст на целые слова (слишком много уникальных слов!) и не на отдельные символы (предложения становятся слишком длинными!). Вместо этого они используют подсловную токенизацию — умный компромисс, который разбивает текст на часто встречающиеся части слов. Самый популярный алгоритм для этого называется Byte Pair Encoding (BPE). После токенизации каждый токен превращается в эмбеддинг — числовой вектор, с которым модель может работать.
Представьте это как создание разговорника с нуля:
- 1. Начинаем с символов: Разбиваем весь обучающий текст на отдельные символы: «кот» → [«к», «о», «т»]. Это начальный словарь.
- 2. Считаем соседние пары: Смотрим на весь обучающий текст и находим, какие пары соседних токенов встречаются чаще всего. Например, «с»+«т» может быть самой частой парой в русском.
- 3. Объединяем самую частую пару: Создаём новый токен из этой пары: «с»+«т» → «ст». Добавляем «ст» в словарь. Теперь «стол» — это [«ст», «о», «л»] вместо [«с», «т», «о», «л»].
- 4. Повторяем тысячи раз: Продолжаем объединять самые частые пары, пока словарь не достигнет целевого размера (например, 50 000 токенов для GPT-4). Частые слова вроде «привет» становятся одним токеном, а редкие разбиваются на части.
- 5. Результат: умный словарь: «unhappiness» → [«un», «happiness»] — токенизатор распознаёт частые приставки и корни. «ChatGPT» → [«Chat», «G», «PT»] — редкие слова разбиваются на известные части.
Вот почему токенизация так важна — качество разбиения на токены напрямую влияет на то, насколько хорошо модель понимает и генерирует текст!
Почему это важно?
- Лимиты токенов: когда слышишь «контекст 4K» или «128K» — это измеряется в токенах, а не в словах. Одно слово ≈ 1-3 токена.
- Стоимость: цена API считается за токены. Одна и та же мысль стоит по-разному на разных языках, потому что токенизация различается!
- Мультиязычность: BPE работает с байтами, поэтому справляется с любым языком — китайским, арабским, эмодзи. Но менее распространённые языки используют больше токенов на слово.
- Код: ключевые слова вроде «function» или «return» часто становятся одним токеном, а имена переменных разбиваются.
Интересный факт: Токенизатор GPT-4 содержит около 100 000 токенов в словаре. Слово «programming» — один токен, а «supercalifragilisticexpialidocious» разбивается на 11 токенов! А один эмодзи семьи вроде 👨👩👧👦 может занимать до 18 токенов.
Попробуйте сами!
Ниже — интерактивный токенизатор. Попробуй ввести разные тексты и посмотри, как они разбиваются на токены!
🧩 Как AI читает текст?
AI не понимает буквы напрямую. Он разбивает текст на кусочки — токены.
Начинаем с исходного текста как единого целого
💡 Главное понять:
- •Токен — это не обязательно слово. Это может быть часть слова или даже знак препинания.
- •Частые слова = 1 токен. Редкие слова = несколько токенов.
- •Чем больше токенов — тем дороже запрос к AI.
Попробуй сам
Интерактивное демо этой техники
Получить краткое описание продукта для карточки товара
XSound Pro 500 — это инновационные беспроводные наушники с отличным звуком, длительной работой от аккумулятора и современным дизайном. Идеально подходят для музыки, работы и путешествий.
XSound Pro 500 — беспроводные наушники с активным шумоподавлением для полного погружения в музыку. 30 часов работы от одного заряда. Bluetooth 5.3 обеспечивает стабильное соединение без задержек. Мягкие амбушюры и складная конструкция — комфорт на весь день.
Понимание токенизации помогает экономить: убрав «воду» из промпта, мы сократили вход с 95 до 38 токенов (−60%) и получили более качественный ответ. Каждый токен должен нести смысл.
Создайте бесплатный аккаунт для решения челленджей
2 челленджей с AI-проверкой для этого урока
Этот урок — часть структурированного курса по LLM.
Мой путь обучения