Что такое токенизация в LLM?

Токенизация — это процесс разбиения текста на меньшие единицы, называемые токенами. Большие языковые модели используют алгоритмы вроде Byte-Pair Encoding (BPE) для разделения текста на подслова, что позволяет обрабатывать любые слова, включая редкие или с ошибками.

Почему разные модели токенизируют текст по-разному?

Каждая модель использует свой токенизатор, обученный на разных данных. Например, GPT-4 использует токенизатор cl100k_base с ~100K токенов, а Claude — другой словарь. Это влияет на эффективность обработки текста на разных языках.

Сколько токенов в одном слове?

По-разному! Частые английские слова обычно 1 токен (например, 'the', 'is'). Длинные или редкие слова могут быть 2-3 токена. Технические термины, не-английские слова или спецсимволы часто занимают больше токенов. В среднем 1 токен ≈ 0.75 слова на английском.

Почему токенизация важна для AI?

Токенизация напрямую влияет на эффективность модели, стоимость и использование контекстного окна. Больше токенов = выше расходы на API и быстрее расходуется лимит контекста. Понимание токенизации помогает оптимизировать промпты и точно прогнозировать затраты.

Урок 1

Токенизация

Как AI читает текст

Проблема: Компьютеры понимают только числа, а не текст. Как подать предложение «Я люблю котов» в нейросеть, которая работает только с числами?

Решение: Словарь для ИИ

Токенизация — это процесс разбиения текста на маленькие кусочки, называемые токенами, и присвоение каждому кусочку числа. Представь это как создание словаря, где каждая запись (слово, часть слова или даже отдельный символ) получает уникальный числовой ID.

Современные LLM не разбивают текст на целые слова (слишком много уникальных слов!) и не на отдельные символы (предложения становятся слишком длинными!). Вместо этого они используют подсловную токенизацию — умный компромисс, который разбивает текст на часто встречающиеся части слов. Самый популярный алгоритм для этого называется Byte Pair Encoding (BPE). После токенизации каждый токен превращается в эмбеддинг — числовой вектор, с которым модель может работать.

Представьте это как создание разговорника с нуля:

1. Начинаем с символов: Разбиваем весь обучающий текст на отдельные символы: «кот» → [«к», «о», «т»]. Это начальный словарь.
2. Считаем соседние пары: Смотрим на весь обучающий текст и находим, какие пары соседних токенов встречаются чаще всего. Например, «с»+«т» может быть самой частой парой в русском.
3. Объединяем самую частую пару: Создаём новый токен из этой пары: «с»+«т» → «ст». Добавляем «ст» в словарь. Теперь «стол» — это [«ст», «о», «л»] вместо [«с», «т», «о», «л»].
4. Повторяем тысячи раз: Продолжаем объединять самые частые пары, пока словарь не достигнет целевого размера (например, 50 000 токенов для GPT-4). Частые слова вроде «привет» становятся одним токеном, а редкие разбиваются на части.
5. Результат: умный словарь: «unhappiness» → [«un», «happiness»] — токенизатор распознаёт частые приставки и корни. «ChatGPT» → [«Chat», «G», «PT»] — редкие слова разбиваются на известные части.

Вот почему токенизация так важна — качество разбиения на токены напрямую влияет на то, насколько хорошо модель понимает и генерирует текст!

Почему это важно?

Лимиты токенов: когда слышишь «контекст 4K» или «128K» — это измеряется в токенах, а не в словах. Одно слово ≈ 1-3 токена.
Стоимость: цена API считается за токены. Одна и та же мысль стоит по-разному на разных языках, потому что токенизация различается!
Мультиязычность: BPE работает с байтами, поэтому справляется с любым языком — китайским, арабским, эмодзи. Но менее распространённые языки используют больше токенов на слово.
Код: ключевые слова вроде «function» или «return» часто становятся одним токеном, а имена переменных разбиваются.

Интересный факт: Токенизатор GPT-4 содержит около 100 000 токенов в словаре. Слово «programming» — один токен, а «supercalifragilisticexpialidocious» разбивается на 11 токенов! А один эмодзи семьи вроде 👨‍👩‍👧‍👦 может занимать до 18 токенов.

Попробуйте сами!

Ниже — интерактивный токенизатор. Попробуй ввести разные тексты и посмотри, как они разбиваются на токены!

🧩 Как AI читает текст?

AI не понимает буквы напрямую. Он разбивает текст на кусочки — токены.

✏️ Введите текст:

Шаг 1

Начинаем с исходного текста как единого целого

Привет мир!

💡 Главное понять:

•Токен — это не обязательно слово. Это может быть часть слова или даже знак препинания.
•Частые слова = 1 токен. Редкие слова = несколько токенов.
•Чем больше токенов — тем дороже запрос к AI.

Попробуй сам

Интерактивное демо этой техники

Сравнение техник

Демо режим

Предзаписанные ответы

ЗадачаНачинающийАнализ

Получить краткое описание продукта для карточки товара

Без техники

Промпт

Можешь ли ты, пожалуйста, быть так любезен и написать мне достаточно подробное, но в то же время не слишком длинное описание для нашего замечательного нового продукта — беспроводных наушников модели XSound Pro 500, которые мы собираемся разместить на нашем интернет-магазине, учитывая что описание должно быть привлекательным для покупателей?

Ответ

XSound Pro 500 — это инновационные беспроводные наушники с отличным звуком, длительной работой от аккумулятора и современным дизайном. Идеально подходят для музыки, работы и путешествий.

Токены:95/42

Время:520ms

Качество:

С Токены

С техникой

Промпт

Напиши описание товара для карточки (40-60 слов). Товар: беспроводные наушники XSound Pro 500. Укажи: шумоподавление, 30ч батарея, Bluetooth 5.3.

Ответ

XSound Pro 500 — беспроводные наушники с активным шумоподавлением для полного погружения в музыку. 30 часов работы от одного заряда. Bluetooth 5.3 обеспечивает стабильное соединение без задержек. Мягкие амбушюры и складная конструкция — комфорт на весь день.

👁️Промпт из 95 токенов содержит ~60% «воды» — вежливые обороты, которые не влияют на результат

🧠Убираем вежливость и повторы → 38 токенов. Экономия 60% при том же (и лучшем) качестве ответа

✅Конкретные характеристики в промпте → конкретные факты в ответе вместо общих фраз

Токены:38/48

Время:410ms

Качество:

Почему это работает

Понимание токенизации помогает экономить: убрав «воду» из промпта, мы сократили вход с 95 до 38 токенов (−60%) и получили более качественный ответ. Каждый токен должен нести смысл.

1 / 2

Практика

Создайте бесплатный аккаунт для решения челленджей

2 челленджей с AI-проверкой для этого урока

Связанные уроки:Embeddings Prompt Basics

Этот урок — часть структурированного курса по LLM.

Мой путь обучения

Урок 1

Токенизация

Как AI читает текст

Решение: Словарь для ИИ

Представьте это как создание разговорника с нуля:

1. Начинаем с символов: Разбиваем весь обучающий текст на отдельные символы: «кот» → [«к», «о», «т»]. Это начальный словарь.
2. Считаем соседние пары: Смотрим на весь обучающий текст и находим, какие пары соседних токенов встречаются чаще всего. Например, «с»+«т» может быть самой частой парой в русском.
3. Объединяем самую частую пару: Создаём новый токен из этой пары: «с»+«т» → «ст». Добавляем «ст» в словарь. Теперь «стол» — это [«ст», «о», «л»] вместо [«с», «т», «о», «л»].
4. Повторяем тысячи раз: Продолжаем объединять самые частые пары, пока словарь не достигнет целевого размера (например, 50 000 токенов для GPT-4). Частые слова вроде «привет» становятся одним токеном, а редкие разбиваются на части.
5. Результат: умный словарь: «unhappiness» → [«un», «happiness»] — токенизатор распознаёт частые приставки и корни. «ChatGPT» → [«Chat», «G», «PT»] — редкие слова разбиваются на известные части.

Почему это важно?

Лимиты токенов: когда слышишь «контекст 4K» или «128K» — это измеряется в токенах, а не в словах. Одно слово ≈ 1-3 токена.
Стоимость: цена API считается за токены. Одна и та же мысль стоит по-разному на разных языках, потому что токенизация различается!
Мультиязычность: BPE работает с байтами, поэтому справляется с любым языком — китайским, арабским, эмодзи. Но менее распространённые языки используют больше токенов на слово.
Код: ключевые слова вроде «function» или «return» часто становятся одним токеном, а имена переменных разбиваются.

Попробуйте сами!

Ниже — интерактивный токенизатор. Попробуй ввести разные тексты и посмотри, как они разбиваются на токены!

🧩 Как AI читает текст?

AI не понимает буквы напрямую. Он разбивает текст на кусочки — токены.

✏️ Введите текст:

Шаг 1

Начинаем с исходного текста как единого целого

Привет мир!

💡 Главное понять:

•Токен — это не обязательно слово. Это может быть часть слова или даже знак препинания.
•Частые слова = 1 токен. Редкие слова = несколько токенов.
•Чем больше токенов — тем дороже запрос к AI.

Попробуй сам

Интерактивное демо этой техники

Сравнение техник

Демо режим

Предзаписанные ответы

ЗадачаНачинающийАнализ

Получить краткое описание продукта для карточки товара

Без техники

Промпт

Ответ

Токены:95/42

Время:520ms

Качество:

С Токены

С техникой

Промпт

Ответ

👁️Промпт из 95 токенов содержит ~60% «воды» — вежливые обороты, которые не влияют на результат

🧠Убираем вежливость и повторы → 38 токенов. Экономия 60% при том же (и лучшем) качестве ответа

✅Конкретные характеристики в промпте → конкретные факты в ответе вместо общих фраз

Токены:38/48

Время:410ms

Качество:

Почему это работает

1 / 2

Практика

Создайте бесплатный аккаунт для решения челленджей

2 челленджей с AI-проверкой для этого урока

Связанные уроки:Embeddings Prompt Basics

Этот урок — часть структурированного курса по LLM.

Мой путь обучения