Мультимодальный RAG
Поиск по тексту и изображениям
Проблема: Текстовый RAG не справляется с визуальным контентом (диаграммы, таблицы, фото, графики). Когда документы содержат изображения, традиционный текстовый RAG не может найти визуальную информацию или рассуждать о ней.
Решение: Три архитектуры мультимодального RAG
Мультимодальный RAG расширяет традиционную retrieval-augmented generation для работы с изображениями наряду с текстом. Существует три основные архитектуры: CLIP embeddings кодируют изображения напрямую в векторы для поиска по сходству, LLM-описания конвертируют изображения в текстовые описания, которые затем стандартно эмбедятся и индексируются, а мульти-векторные подходы вроде ColPali создают embeddings на уровне токенов как для текста, так и для патчей изображений, сохраняя разметку и визуальную структуру. Каждая архитектура по-своему балансирует точность поиска, скорость индексации и возможность отвечать на текстовые вопросы о содержимом изображений.
Представьте это как библиотекаря, который умеет искать как по текстовым описаниям, так и просматривая реальные иллюстрации в книгах:
- 1. CLIP Embeddings: Изображение поступает напрямую в CLIP-энкодер, создавая вектор для поиска по сходству. Быстро, но не позволяет отвечать на текстовые вопросы о содержимом изображения.
- 2. LLM-описания: LLM описывает каждое изображение текстом, затем текст эмбедится обычным образом. Доступно для текстового поиска, но теряет визуальные детали при переводе.
- 3. Мульти-вектор (ColPali): Модель позднего взаимодействия создаёт embeddings на уровне токенов как для текста, так и для патчей изображений. Лучшая точность, сохраняет разметку и визуальную информацию.
- 4. Выбор подхода: CLIP — для поиска изображение-по-изображению, LLM-описания — для текстового Q&A об изображениях, ColPali — для понимания документов с чувствительным к разметке поиском.
Где нужен мультимодальный RAG
- Техническая документация: Диаграммы и схемы наряду с текстовыми пояснениями, доступные для поиска как по визуальному сходству, так и по текстовым запросам.
- Медицинские записи: Рентгеновские снимки, МРТ в составе записей пациентов, обеспечивающие поиск по запросу «покажи случаи с похожими изменениями на рентгене грудной клетки».
- E-commerce: Фотографии товаров в сочетании с описаниями для визуального поиска: «найди похожие товары» или «красное платье с цветочным принтом».
- Юридический анализ: Договоры с печатями, подписями, рукописными пометками, влияющими на интерпретацию наряду с печатным текстом.
Интересный факт: ColPali (2024) от Illuin Technology показал, что единственная vision-модель способна сравняться или превзойти сложные OCR+текстовые пайплайны по качеству поиска документов, будучи при этом в 4 раза быстрее при индексации. Ключевое наблюдение: визуальные токены сохраняют информацию о разметке, которая теряется при извлечении текста.
Попробуйте сами!
Изучи визуализацию ниже: как каждая архитектура обрабатывает документ с изображениями — от разбиения на чанки до поиска и генерации.
Попробуй сам
Интерактивное демо этой техники
Создать качественное текстовое описание диаграммы для RAG-индекса
На диаграмме показаны продажи по кварталам. Продажи растут.
Тип: Столбчатый график (bar chart) Тема: Квартальные продажи за год
Данные:
- Q1: $2.1M (минимум)
- Q2: $3.4M (+62% к Q1)
- Q3: $2.8M (-18% к Q2)
- Q4: $4.2M (+50% к Q3, максимум)
Тренды: Общий рост с провалом в Q3. Лучший квартал — Q4 (12.5M.
Выводы: Сезонный провал Q3, сильный финиш в Q4. Рост Q1→Q4: +100%.
Теги: продажи, квартальные, bar chart, revenue, сезонность, рост
В архитектуре "LLM-описания" качество текстового описания = качество поиска. Структура, точные данные и теги превращают изображение в поисковый артефакт.
Создайте бесплатный аккаунт для решения челленджей
3 челленджей с AI-проверкой для этого урока
Этот урок — часть структурированного курса по LLM.
Мой путь обучения