Multimodal CoT
Vision + Рассуждения
Проблема: Некоторые задачи включают И текст, И изображения или диаграммы. Как ИИ может рассуждать пошагово, одновременно обрабатывая визуальную информацию?
Решение: Думай с диаграммой
Multimodal CoT расширяет рассуждения Chain-of-Thought, включая визуальные входы — изображения, графики и диаграммы. Вместо того чтобы сразу прыгать от картинки к ответу, модель сначала описывает словами, что именно она видит — объекты, подписи, числа и связи на изображении, — и только потом рассуждает пошагово до ответа. Это как решение задачи по геометрии: ты вслух проговариваешь чертёж, одновременно прорабатывая логику. Для этого нужна модель с поддержкой зрения (vision model), которая обрабатывает и текст, и изображения в одном контексте.
Как это работает
Самый надёжный рецепт — двухэтапный подход из оригинальной статьи. На первом этапе модель получает изображение и вопрос, и её просят выдать только обоснование (rationale) — привязанное к картинке описание вроде «Вижу схему с двумя последовательными резисторами и батареей 9В». На втором этапе этот текстовый rationale подаётся обратно вместе с исходным вопросом, и модель формулирует финальный ответ. Разделение важно, потому что оно заставляет визуальное извлечение произойти явно и «под запись»: ответ выводится из чёткого текстового резюме, а не из смутного беглого взгляда. Именно поэтому даже небольшие модели зрения (около 1B параметров в статье) обходят куда более крупные текстовые модели на бенчмарках с диаграммами, например ScienceQA.
Когда применять — и подводные камни
Бери Multimodal CoT, когда ответ реально зависит от визуальной детали: фигуры из научных задач, геометрия, графики и диаграммы, лабораторное оборудование, карты, формы, блок-схемы. Для чисто текстового вопроса обычный текстовый CoT проще и дешевле. Главный подводный камень — галлюцинации (hallucination) на этапе восприятия: модель может уверенно «прочитать» значение, которого нет, и каждый следующий шаг рассуждения унаследует эту ошибку. Снижай риск, запрашивая конкретные, проверяемые наблюдения (точные числа, подписи осей, цвета) и держа обоснование плотно привязанным к изображению. Конкретный пример: дай модели столбчатую диаграмму и спроси «в каком квартале была самая высокая выручка?». Прямая модель может угадать; с Multimodal CoT она сначала переписывает каждый столбец («Q1 ≈ 40, Q2 ≈ 55, Q3 ≈ 30, Q4 ≈ 60»), затем делает вывод «выше всего Q4» — и ты можешь проверить эту расшифровку и поймать ошибку.
Представьте это как решение задачи с диаграммой:
- 1. Смотрим на изображение: "Вижу треугольник с обозначенными углами..."
- 2. Извлекаем информацию: "Угол A похож на 60 градусов..."
- 3. Рассуждаем: "Поскольку сумма углов равна 180..."
- 4. Комбинируем: Используем визуальное и текстовое рассуждение вместе
Где это используется?
- Научные задачи: Диаграммы по физике, химические структуры
- Математика с чертежами: Геометрия, графики, координатные системы
- Анализ графиков: Понимание визуализаций данных
- Понимание документов: Формы, инфографика, блок-схемы
Интересный факт: Multimodal CoT может решать экзаменационные вопросы по естественным наукам с диаграммами с гораздо большей точностью, чем текстовые подходы! Ключ — генерация "обоснований", описывающих увиденное перед рассуждением.
Попробуйте сами!
Используй интерактивный пример ниже, чтобы увидеть, как ИИ может рассуждать о задачах, комбинирующих изображения и текст.
Посмотри на изображение и вопрос.
[Изображение]
Вопрос: {question}
Прежде чем ответить, опиши:
1. Что ты видишь на изображении (ключевые элементы)
2. Какая информация релевантна вопросу
3. Пошаговые рассуждения от наблюдений к ответу
Наблюдения и рассуждения:На основе рассуждений выше, ответь на вопрос.
Рассуждения: {rationale}
Вопрос: {question}
Финальный ответ:| Аспект | Прямой ответ | Текстовый CoT | Multimodal CoT |
|---|---|---|---|
| Входные данные | Изображение + вопрос | Только текст | Изображение + вопрос |
| Рассуждения | Нет | Текстовые | Визуальные + текст |
| Точность на ScienceQA | ~75% | ~80% | ~91% |
| Интерпретируемость | Низкая | Высокая | Очень высокая |
Multimodal CoT описан в статье "Multimodal Chain-of-Thought Reasoning in Language Models" (Zhang et al., 2023).
- • Превосходит GPT-3.5 на ScienceQA бенчмарке
- • Разделение на два этапа критически важно
- • Работает даже с небольшими моделями (1B параметров)
- ✓ Всегда просите описать что модель видит перед ответом
- ✓ Используйте двухэтапный подход для сложных задач
- ✓ Запрашивайте конкретные наблюдения (числа, цвета, формы)
- ✓ Проверяйте рассуждения на логичность
- ✓ Для диаграмм: просите читать все подписи и легенды
Частые вопросы
Что такое Multimodal Chain-of-Thought (мультимодальный CoT)?
Multimodal CoT — это приём промптинга, расширяющий пошаговые рассуждения Chain-of-Thought на визуальные входы: изображения, графики, диаграммы. Модель сначала словами описывает, что она видит на картинке (обоснование, rationale), а затем рассуждает шаг за шагом от наблюдений к ответу. Для этого нужна модель с поддержкой зрения (vision model), обрабатывающая текст и изображения вместе.
Чем Multimodal CoT отличается от обычного текстового Chain-of-Thought?
Обычный CoT работает только с текстом: модель рассуждает по словам входа. Multimodal CoT добавляет этап восприятия — модель явно извлекает информацию из изображения (числа, подписи, формы) и записывает её текстом, прежде чем рассуждать. Поэтому он нужен, когда ответ зависит от визуальной детали (схема, чертёж, диаграмма), а для чисто текстовых задач достаточно обычного CoT.
Как работает двухэтапный подход в Multimodal CoT?
На первом этапе модель получает изображение и вопрос и выдаёт только обоснование (rationale) — привязанное к картинке описание увиденного. На втором этапе этот текст подаётся обратно вместе с исходным вопросом, и модель формулирует финальный ответ. Разделение заставляет визуальное извлечение произойти явно и «под запись», что повышает точность и позволяет проверить расшифровку картинки.
Когда стоит применять Multimodal CoT и какие у него ограничения?
Применяй его, когда ответ реально зависит от изображения: научные фигуры, геометрия, графики, лабораторное оборудование, карты, формы, блок-схемы. Главное ограничение — галлюцинации на этапе восприятия: модель может «прочитать» значение, которого нет, и ошибка перейдёт во все следующие шаги. Снижай риск, запрашивая конкретные проверяемые наблюдения (точные числа, подписи осей, цвета) и держа обоснование привязанным к изображению.
Попробуй сам
Интерактивное демо этой техники
Определить время суток и сезон по фотографии городской улицы
На фотографии городская улица. Видны пешеходы и деревья. Улица хорошо освещена.
1. Визуальные элементы: Городская улица, 8-10 пешеходов, ряд деревьев вдоль тротуара, припаркованные машины.
2. Анализ освещения: Тени длинные (3-4x высоты объектов), направлены на запад. Свет тёплый, золотистый. Это характерно для утра (8-9 часов) или вечера (17-18 часов). Тёплый оттенок и активность людей указывают на вечер.
3. Одежда: Футболки, лёгкие платья, шорты. Температура 20-28°C.
4. Растительность: Деревья в полном цвету, видны розовые и белые соцветия. Это вишня или яблоня — цветут в апреле-мае.
5. Вывод: Ранний вечер (около 17-18 часов) в конце весны (апрель-май). Основание: длинные вечерние тени + лёгкая одежда + цветущие деревья.
Мультимодальный CoT разбивает анализ изображения на конкретные визуальные аспекты (тени, одежда, растительность). Каждый аспект даёт независимую подсказку, а их сочетание — уверенный вывод.
Создайте бесплатный аккаунт для решения челленджей
6 челленджей с AI-проверкой для этого урока
Этот урок — часть структурированного курса по LLM.
Мой путь обучения