Эмбеддинги
Смысл как числа
Проблема: Компьютер умеет работать только с числами. Он не знает, что «кот» и «кошка» — это почти одно и то же, а «кот» и «стол» — совсем разные вещи.
Решение: дать каждому слову «адрес»
После того как токенизация разбивает текст на токены, каждому токену нужно числовое представление. Представь, что ты можешь дать каждому слову координаты, как в GPS. Тогда похожие слова будут «жить» рядом друг с другом.
Магия: арифметика со словами
Самое удивительное — с такими «адресами» можно делать математику!
Король − Мужчина + Женщина = Королева
Компьютер «понял», что королева — это женский вариант короля!
Эмбеддинги — это фундамент, на котором строятся внимание и архитектура Трансформер.
Представьте это как карту города:
- 1. «Кот», «собака», «хомяк»: живут в районе Животных
- 2. «Яблоко», «банан», «апельсин»: в районе Фруктов
- 3. «Король», «королева», «принц»: в районе Королевской семьи
- 4. «Машина», «автобус», «поезд»: в районе Транспорта
Чем ближе слова по смыслу — тем ближе их «адреса» на карте.
Где это используется?
- Поиск в Google: находит «ноутбук», даже если ты написал «портативный компьютер»
- Переводчик: понимает, что «big» и «large» — это одно и то же «большой»
- Рекомендации: Netflix знает, что если тебе нравятся «драмы», возможно понравятся и «мелодрамы»
- ChatGPT: понимает смысл твоего вопроса, а не просто ищет ключевые слова
Интересный факт: Такие «адреса слов» (их называют эмбеддинги) работают везде в современном ИИ!
Попробуйте сами!
Внизу — интерактивная карта слов. Покрути её, понажимай на слова и посмотри, какие слова оказались соседями!
Подробнее: измерение сходства
Косинусное сходство — аналогия со стрелками
Представьте два эмбеддинга как две стрелки. Косинусное сходство измеряет угол между ними. Если стрелки указывают в одном направлении (угол мал), слова похожи: «кот» и «котёнок» почти параллельны. Если стрелки перпендикулярны, слова не связаны. Важно именно направление стрелки, а не её длина — длинная и короткая стрелки, указывающие в одну сторону, всё равно считаются похожими.
Зачем высокая размерность?
Представьте, что вы описываете человека. По 3 признакам (рост, вес, цвет волос) легко спутать многих людей. По 768 признакам — вы улавливаете тонкие отличия. Так же и эмбеддинги: больше измерений — больше нюансов значения. Но есть компромисс: каждое дополнительное измерение требует больше памяти и вычислений.
Попробуй сам
Интерактивное демо этой техники
Найти в базе знаний ответ на вопрос клиента о возврате товара
К сожалению, я не нашёл информации по вашему запросу. Попробуйте переформулировать вопрос или обратитесь к оператору.
Вы можете получить полный возврат средств в течение 14 дней с момента покупки. Для оформления возврата перейдите в раздел «Мои заказы» → «Оформить возврат». Деньги поступят на карту в течение 3-5 рабочих дней.
Эмбеддинги находят семантически похожие тексты, даже если ключевые слова не совпадают. «Вернуть деньги» и «возврат средств» — разные слова, но близкие векторы.
Создайте бесплатный аккаунт для решения челленджей
4 челленджей с AI-проверкой для этого урока
Этот урок — часть структурированного курса по LLM.
Мой путь обучения