RAG — генерация с дополненным поиском
Retrieval Augmented Generation
Проблема: У ИИ есть дата отсечки знаний, и он не знает ваши приватные данные. Как дать ИИ доступ к актуальной, релевантной информации без переобучения всей модели?
Решение: Дай ИИ читательский билет
RAG (Retrieval-Augmented Generation) ищет релевантную информацию в базе знаний и включает её в промпт. Это как библиотекарь, который сначала находит факты, а потом отвечает на вопрос. Вместо того чтобы полагаться только на то, что модель запомнила при обучении (параметрические знания), RAG заземляет ответ в реальных, актуальных данных — и резко снижает галлюцинации.
Как работает поиск? RAG использует эмбеддинги — числовые векторы, которые передают смысл текста. И ваши документы, и вопрос пользователя преобразуются в такие векторы. Затем поиск по сходству находит документы, наиболее близкие по смыслу к запросу. Результаты хранятся в векторной базе данных для быстрого извлечения.
Почему размер чанка важен? Перед индексацией документы разбиваются на фрагменты (чанки). Это ключевой компромисс: слишком большие чанки размывают релевантность, а слишком маленькие теряют важный контекст. Например, чанк в 50 токенов идеально передаст одно предложение, но упустит окружающее объяснение, а чанк в 2000 токенов даст много контекста, но может совпасть менее точно. Подбор правильного баланса — одно из самых важных решений в RAG-пайплайне.
В отличие от файн-тюнинга, RAG не меняет модель вообще — он просто предоставляет нужный контекст во время инференса. Это гораздо дешевле в поддержке: когда данные меняются, обновляется только индекс, а не сама модель. RAG также можно комбинировать с Chain-of-Thought для пошагового рассуждения по извлечённым документам.
Представьте это как библиотекарь с каталогом:
- 1. Пользователь спрашивает: "Какова наша политика возврата?"
- 2. Эмбеддинг запроса: Преобразуем вопрос в числовой вектор, отражающий его смысл
- 3. Поиск: Находим наиболее похожие фрагменты документов в векторной базе
- 4. Дополняем: Добавляем найденные фрагменты в промпт как контекст
- 5. Генерируем: ИИ отвечает на основе реального текста политики, а не догадок
Перед всем этим документы проходят предобработку: разбиваются на чанки, преобразуются в эмбеддинги и сохраняются в векторную базу. Это происходит один раз, а не при каждом запросе.
Где это используется?
- Поддержка клиентов: Ответы на вопросы из базы знаний компании с указанием источников
- Корпоративный поиск: Поиск и суммаризация информации среди тысяч внутренних документов
- Юридические исследования: Поиск по судебной практике и нормативам с семантическим пониманием
- Техническая документация: Чат-боты, отвечающие на вопросы об API, коде и функциях продукта
Интересный факт: RAG — техника №1, используемая в продакшн ИИ-системах сегодня. Это намного дешевле файн-тюнинга: когда данные меняются, достаточно переиндексировать новые документы вместо переобучения всей модели. Компании вроде Notion, Stripe и GitHub используют RAG под капотом!
Попробуйте сами!
Используй интерактивный пример ниже, чтобы увидеть, как извлечение релевантных документов улучшает качество и точность ответов ИИ.
RAG позволяет LLM использовать актуальную информацию из внешних источников. Вместо того чтобы полагаться только на обученные знания, модель получает релевантные документы и использует их для ответа.
Политики, регламенты, инструкции
API, продукты, технические спеки
Новости, цены, наличие товаров
RAG решает главную проблему LLM — устаревшие и неполные знания. Модель получает актуальную информацию из ваших документов и даёт точные ответы о вашей компании, продуктах и данных.
Попробуй сам
Интерактивное демо этой техники
Ответить на вопрос о внутренней политике компании
По Трудовому кодексу РФ минимальный отпуск — 28 календарных дней. Однако конкретные условия зависят от вашего трудового договора и политики компании.
Сотрудники имеют право на 28 календарных дней оплачиваемого отпуска. За каждые 5 лет работы в компании добавляется ещё 3 дня.
Без RAG модель даёт общую информацию. С RAG — точный ответ для конкретной компании.
Создайте бесплатный аккаунт для решения челленджей
3 челленджей с AI-проверкой для этого урока
Этот урок — часть структурированного курса по LLM.
Мой путь обучения