Multimodal CoT
Vision + Рассуждения
Проблема: Некоторые задачи включают И текст, И изображения или диаграммы. Как ИИ может рассуждать пошагово, одновременно обрабатывая визуальную информацию?
Решение: Думай с диаграммой
Multimodal CoT расширяет рассуждения Chain-of-Thought, включая визуальные входы — изображения, графики и диаграммы. Это как решение задачи по геометрии, глядя на чертёж и одновременно прорабатывая логику. Для работы необходима модель с поддержкой зрения, обрабатывающая текст и изображения.
Представьте это как решение задачи с диаграммой:
- 1. Смотрим на изображение: "Вижу треугольник с обозначенными углами..."
- 2. Извлекаем информацию: "Угол A похож на 60 градусов..."
- 3. Рассуждаем: "Поскольку сумма углов равна 180..."
- 4. Комбинируем: Используем визуальное и текстовое рассуждение вместе
Где это используется?
- Научные задачи: Диаграммы по физике, химические структуры
- Математика с чертежами: Геометрия, графики, координатные системы
- Анализ графиков: Понимание визуализаций данных
- Понимание документов: Формы, инфографика, блок-схемы
Интересный факт: Multimodal CoT может решать экзаменационные вопросы по естественным наукам с диаграммами с гораздо большей точностью, чем текстовые подходы! Ключ — генерация "обоснований", описывающих увиденное перед рассуждением.
Попробуйте сами!
Используй интерактивный пример ниже, чтобы увидеть, как ИИ может рассуждать о задачах, комбинирующих изображения и текст.
Посмотри на изображение и вопрос.
[Изображение]
Вопрос: {question}
Прежде чем ответить, опиши:
1. Что ты видишь на изображении (ключевые элементы)
2. Какая информация релевантна вопросу
3. Пошаговые рассуждения от наблюдений к ответу
Наблюдения и рассуждения:На основе рассуждений выше, ответь на вопрос.
Рассуждения: {rationale}
Вопрос: {question}
Финальный ответ:| Аспект | Прямой ответ | Текстовый CoT | Multimodal CoT |
|---|---|---|---|
| Входные данные | Изображение + вопрос | Только текст | Изображение + вопрос |
| Рассуждения | Нет | Текстовые | Визуальные + текст |
| Точность на ScienceQA | ~75% | ~80% | ~91% |
| Интерпретируемость | Низкая | Высокая | Очень высокая |
Multimodal CoT описан в статье "Multimodal Chain-of-Thought Reasoning in Language Models" (Zhang et al., 2023).
- • Превосходит GPT-3.5 на ScienceQA бенчмарке
- • Разделение на два этапа критически важно
- • Работает даже с небольшими моделями (1B параметров)
- ✓ Всегда просите описать что модель видит перед ответом
- ✓ Используйте двухэтапный подход для сложных задач
- ✓ Запрашивайте конкретные наблюдения (числа, цвета, формы)
- ✓ Проверяйте рассуждения на логичность
- ✓ Для диаграмм: просите читать все подписи и легенды
Попробуй сам
Интерактивное демо этой техники
Определить время суток и сезон по фотографии городской улицы
На фотографии городская улица. Видны пешеходы и деревья. Улица хорошо освещена.
1. Визуальные элементы: Городская улица, 8-10 пешеходов, ряд деревьев вдоль тротуара, припаркованные машины.
2. Анализ освещения: Тени длинные (3-4x высоты объектов), направлены на запад. Свет тёплый, золотистый. Это характерно для утра (8-9 часов) или вечера (17-18 часов). Тёплый оттенок и активность людей указывают на вечер.
3. Одежда: Футболки, лёгкие платья, шорты. Температура 20-28°C.
4. Растительность: Деревья в полном цвету, видны розовые и белые соцветия. Это вишня или яблоня — цветут в апреле-мае.
5. Вывод: Ранний вечер (около 17-18 часов) в конце весны (апрель-май). Основание: длинные вечерние тени + лёгкая одежда + цветущие деревья.
Мультимодальный CoT разбивает анализ изображения на конкретные визуальные аспекты (тени, одежда, растительность). Каждый аспект даёт независимую подсказку, а их сочетание — уверенный вывод.
Создайте бесплатный аккаунт для решения челленджей
6 челленджей с AI-проверкой для этого урока
Этот урок — часть структурированного курса по LLM.
Мой путь обучения