ТехникаVision

Multimodal CoT

Vision + Рассуждения

Проблема: Некоторые задачи включают И текст, И изображения или диаграммы. Как ИИ может рассуждать пошагово, одновременно обрабатывая визуальную информацию?

Решение: Думай с диаграммой

Multimodal CoT расширяет рассуждения Chain-of-Thought, включая визуальные входы — изображения, графики и диаграммы. Вместо того чтобы сразу прыгать от картинки к ответу, модель сначала описывает словами, что именно она видит — объекты, подписи, числа и связи на изображении, — и только потом рассуждает пошагово до ответа. Это как решение задачи по геометрии: ты вслух проговариваешь чертёж, одновременно прорабатывая логику. Для этого нужна модель с поддержкой зрения (vision model), которая обрабатывает и текст, и изображения в одном контексте.

Как это работает

Самый надёжный рецепт — двухэтапный подход из оригинальной статьи. На первом этапе модель получает изображение и вопрос, и её просят выдать только обоснование (rationale) — привязанное к картинке описание вроде «Вижу схему с двумя последовательными резисторами и батареей 9В». На втором этапе этот текстовый rationale подаётся обратно вместе с исходным вопросом, и модель формулирует финальный ответ. Разделение важно, потому что оно заставляет визуальное извлечение произойти явно и «под запись»: ответ выводится из чёткого текстового резюме, а не из смутного беглого взгляда. Именно поэтому даже небольшие модели зрения (около 1B параметров в статье) обходят куда более крупные текстовые модели на бенчмарках с диаграммами, например ScienceQA.

Когда применять — и подводные камни

Бери Multimodal CoT, когда ответ реально зависит от визуальной детали: фигуры из научных задач, геометрия, графики и диаграммы, лабораторное оборудование, карты, формы, блок-схемы. Для чисто текстового вопроса обычный текстовый CoT проще и дешевле. Главный подводный камень — галлюцинации (hallucination) на этапе восприятия: модель может уверенно «прочитать» значение, которого нет, и каждый следующий шаг рассуждения унаследует эту ошибку. Снижай риск, запрашивая конкретные, проверяемые наблюдения (точные числа, подписи осей, цвета) и держа обоснование плотно привязанным к изображению. Конкретный пример: дай модели столбчатую диаграмму и спроси «в каком квартале была самая высокая выручка?». Прямая модель может угадать; с Multimodal CoT она сначала переписывает каждый столбец («Q1 ≈ 40, Q2 ≈ 55, Q3 ≈ 30, Q4 ≈ 60»), затем делает вывод «выше всего Q4» — и ты можешь проверить эту расшифровку и поймать ошибку.

Представьте это как решение задачи с диаграммой:

1. Смотрим на изображение: "Вижу треугольник с обозначенными углами..."
2. Извлекаем информацию: "Угол A похож на 60 градусов..."
3. Рассуждаем: "Поскольку сумма углов равна 180..."
4. Комбинируем: Используем визуальное и текстовое рассуждение вместе

Где это используется?

Научные задачи: Диаграммы по физике, химические структуры
Математика с чертежами: Геометрия, графики, координатные системы
Анализ графиков: Понимание визуализаций данных
Понимание документов: Формы, инфографика, блок-схемы

Интересный факт: Multimodal CoT может решать экзаменационные вопросы по естественным наукам с диаграммами с гораздо большей точностью, чем текстовые подходы! Ключ — генерация "обоснований", описывающих увиденное перед рассуждением.

Попробуйте сами!

Используй интерактивный пример ниже, чтобы увидеть, как ИИ может рассуждать о задачах, комбинирующих изображения и текст.

Шаблон промпта

Этап 1: Генерация рассуждений

Посмотри на изображение и вопрос.

[Изображение]

Вопрос: {question}

Прежде чем ответить, опиши:
1. Что ты видишь на изображении (ключевые элементы)
2. Какая информация релевантна вопросу
3. Пошаговые рассуждения от наблюдений к ответу

Наблюдения и рассуждения:

Этап 2: Финальный ответ

На основе рассуждений выше, ответь на вопрос.

Рассуждения: {rationale}
Вопрос: {question}

Финальный ответ:

Сравнение подходов

Аспект	Прямой ответ	Текстовый CoT	Multimodal CoT
Входные данные	Изображение + вопрос	Только текст	Изображение + вопрос
Рассуждения	Нет	Текстовые	Визуальные + текст
Точность на ScienceQA	~75%	~80%	~91%
Интерпретируемость	Низкая	Высокая	Очень высокая

Исследования

Multimodal CoT описан в статье "Multimodal Chain-of-Thought Reasoning in Language Models" (Zhang et al., 2023).

• Превосходит GPT-3.5 на ScienceQA бенчмарке
• Разделение на два этапа критически важно
• Работает даже с небольшими моделями (1B параметров)

Лучшие практики

✓ Всегда просите описать что модель видит перед ответом
✓ Используйте двухэтапный подход для сложных задач
✓ Запрашивайте конкретные наблюдения (числа, цвета, формы)
✓ Проверяйте рассуждения на логичность
✓ Для диаграмм: просите читать все подписи и легенды

Частые вопросы

Что такое Multimodal Chain-of-Thought (мультимодальный CoT)?

Multimodal CoT — это приём промптинга, расширяющий пошаговые рассуждения Chain-of-Thought на визуальные входы: изображения, графики, диаграммы. Модель сначала словами описывает, что она видит на картинке (обоснование, rationale), а затем рассуждает шаг за шагом от наблюдений к ответу. Для этого нужна модель с поддержкой зрения (vision model), обрабатывающая текст и изображения вместе.

Чем Multimodal CoT отличается от обычного текстового Chain-of-Thought?

Обычный CoT работает только с текстом: модель рассуждает по словам входа. Multimodal CoT добавляет этап восприятия — модель явно извлекает информацию из изображения (числа, подписи, формы) и записывает её текстом, прежде чем рассуждать. Поэтому он нужен, когда ответ зависит от визуальной детали (схема, чертёж, диаграмма), а для чисто текстовых задач достаточно обычного CoT.

Как работает двухэтапный подход в Multimodal CoT?

На первом этапе модель получает изображение и вопрос и выдаёт только обоснование (rationale) — привязанное к картинке описание увиденного. На втором этапе этот текст подаётся обратно вместе с исходным вопросом, и модель формулирует финальный ответ. Разделение заставляет визуальное извлечение произойти явно и «под запись», что повышает точность и позволяет проверить расшифровку картинки.

Когда стоит применять Multimodal CoT и какие у него ограничения?

Применяй его, когда ответ реально зависит от изображения: научные фигуры, геометрия, графики, лабораторное оборудование, карты, формы, блок-схемы. Главное ограничение — галлюцинации на этапе восприятия: модель может «прочитать» значение, которого нет, и ошибка перейдёт во все следующие шаги. Снижай риск, запрашивая конкретные проверяемые наблюдения (точные числа, подписи осей, цвета) и держа обоснование привязанным к изображению.

Попробуй сам

Интерактивное демо этой техники

Сравнение техник

Демо режим

Предзаписанные ответы

ЗадачаНачинающийАнализ

Определить время суток и сезон по фотографии городской улицы

Без техники

Промпт

[Изображение: городская улица с длинными тенями, люди в лёгкой одежде, цветущие деревья] Опиши, что на фотографии.

Ответ

На фотографии городская улица. Видны пешеходы и деревья. Улица хорошо освещена.

Токены:820/28

Время:450ms

Качество:

С Мультимодальный CoT

С техникой

Промпт

[Изображение: городская улица с длинными тенями, люди в лёгкой одежде, цветущие деревья] Проанализируй изображение пошагово, чтобы определить время суток и сезон: 1. Описание визуальных элементов: что ты видишь? 2. Анализ освещения: направление и длина теней, качество света 3. Анализ одежды людей: что это говорит о температуре? 4. Анализ растительности: на какой стадии деревья? 5. Вывод: какое время суток и сезон?

Ответ

1. Визуальные элементы: Городская улица, 8-10 пешеходов, ряд деревьев вдоль тротуара, припаркованные машины.

2. Анализ освещения: Тени длинные (3-4x высоты объектов), направлены на запад. Свет тёплый, золотистый. Это характерно для утра (8-9 часов) или вечера (17-18 часов). Тёплый оттенок и активность людей указывают на вечер.

3. Одежда: Футболки, лёгкие платья, шорты. Температура 20-28°C.

4. Растительность: Деревья в полном цвету, видны розовые и белые соцветия. Это вишня или яблоня — цветут в апреле-мае.

5. Вывод: Ранний вечер (около 17-18 часов) в конце весны (апрель-май). Основание: длинные вечерние тени + лёгкая одежда + цветущие деревья.

👁️Разделяем анализ изображения на конкретные визуальные аспекты

🧠Длина теней + направление + качество света = время суток

🧠Одежда + растительность дают независимое подтверждение сезона

✅Перекрёстная проверка всех наблюдений даёт уверенный вывод

Токены:870/215

Время:1200ms

Качество:

Почему это работает

Мультимодальный CoT разбивает анализ изображения на конкретные визуальные аспекты (тени, одежда, растительность). Каждый аспект даёт независимую подсказку, а их сочетание — уверенный вывод.

1 / 2

Практика

Создайте бесплатный аккаунт для решения челленджей

6 челленджей с AI-проверкой для этого урока

Связанные уроки:Chain Of Thought Vision Basics

Этот урок — часть структурированного курса по LLM.

Мой путь обучения

ТехникаVision

Multimodal CoT

Vision + Рассуждения

Решение: Думай с диаграммой

Как это работает

Когда применять — и подводные камни

Представьте это как решение задачи с диаграммой:

1. Смотрим на изображение: "Вижу треугольник с обозначенными углами..."
2. Извлекаем информацию: "Угол A похож на 60 градусов..."
3. Рассуждаем: "Поскольку сумма углов равна 180..."
4. Комбинируем: Используем визуальное и текстовое рассуждение вместе

Где это используется?

Научные задачи: Диаграммы по физике, химические структуры
Математика с чертежами: Геометрия, графики, координатные системы
Анализ графиков: Понимание визуализаций данных
Понимание документов: Формы, инфографика, блок-схемы

Попробуйте сами!

Шаблон промпта

Этап 1: Генерация рассуждений

Посмотри на изображение и вопрос.

[Изображение]

Вопрос: {question}

Прежде чем ответить, опиши:
1. Что ты видишь на изображении (ключевые элементы)
2. Какая информация релевантна вопросу
3. Пошаговые рассуждения от наблюдений к ответу

Наблюдения и рассуждения:

Этап 2: Финальный ответ

На основе рассуждений выше, ответь на вопрос.

Рассуждения: {rationale}
Вопрос: {question}

Финальный ответ:

Сравнение подходов

Аспект	Прямой ответ	Текстовый CoT	Multimodal CoT
Входные данные	Изображение + вопрос	Только текст	Изображение + вопрос
Рассуждения	Нет	Текстовые	Визуальные + текст
Точность на ScienceQA	~75%	~80%	~91%
Интерпретируемость	Низкая	Высокая	Очень высокая

Исследования

Multimodal CoT описан в статье "Multimodal Chain-of-Thought Reasoning in Language Models" (Zhang et al., 2023).

• Превосходит GPT-3.5 на ScienceQA бенчмарке
• Разделение на два этапа критически важно
• Работает даже с небольшими моделями (1B параметров)

Лучшие практики

✓ Всегда просите описать что модель видит перед ответом
✓ Используйте двухэтапный подход для сложных задач
✓ Запрашивайте конкретные наблюдения (числа, цвета, формы)
✓ Проверяйте рассуждения на логичность
✓ Для диаграмм: просите читать все подписи и легенды

Частые вопросы

Что такое Multimodal Chain-of-Thought (мультимодальный CoT)?

Чем Multimodal CoT отличается от обычного текстового Chain-of-Thought?

Как работает двухэтапный подход в Multimodal CoT?

Когда стоит применять Multimodal CoT и какие у него ограничения?

Попробуй сам

Интерактивное демо этой техники

Сравнение техник

Демо режим

Предзаписанные ответы

ЗадачаНачинающийАнализ

Определить время суток и сезон по фотографии городской улицы

Без техники

Промпт

Ответ

На фотографии городская улица. Видны пешеходы и деревья. Улица хорошо освещена.

Токены:820/28

Время:450ms

Качество:

С Мультимодальный CoT

С техникой

Промпт

Ответ

1. Визуальные элементы: Городская улица, 8-10 пешеходов, ряд деревьев вдоль тротуара, припаркованные машины.

3. Одежда: Футболки, лёгкие платья, шорты. Температура 20-28°C.

👁️Разделяем анализ изображения на конкретные визуальные аспекты

🧠Длина теней + направление + качество света = время суток

🧠Одежда + растительность дают независимое подтверждение сезона

✅Перекрёстная проверка всех наблюдений даёт уверенный вывод

Токены:870/215

Время:1200ms

Качество:

Почему это работает

1 / 2

Практика

Создайте бесплатный аккаунт для решения челленджей

6 челленджей с AI-проверкой для этого урока

Связанные уроки:Chain Of Thought Vision Basics

Этот урок — часть структурированного курса по LLM.

Мой путь обучения