Галлюцинации vision-моделей
Когда модель уверенно врёт
Проблема: Vision-модели галлюцинируют с идеальной уверенностью — видят несуществующие объекты, путают атрибуты, ошибаются в пространственных отношениях, дописывают закрытый текст и подставляют ожидаемые количества. Без знания этих режимов отказа невозможно строить надёжные приложения.
Решение: Пять типов визуальных галлюцинаций
Vision-модели не просто ошибаются — они уверенно выдумывают детали, которые выглядят абсолютно правдоподобно. Модель может "видеть" кота, который на самом деле рисунок на подушке, путать лево и право, придумывать текст на частично закрытой вывеске или подставлять ожидаемые количества вместо реального подсчёта. Это называется галлюцинации — и они особенно опасны, потому что модель не демонстрирует неуверенности. Понимание пяти типов визуальных галлюцинаций (объекты, атрибуты, пространственные, OCR, подсчёт) необходимо для построения надёжных мультимодальных приложений.
Представьте это как уверенного свидетеля, дающего ложные показания в суде:
- 1. Галлюцинация объектов: Модель "видит" объекты, которых нет — кота из рисунка на подушке, человека из тени
- 2. Галлюцинация атрибутов: Неправильный цвет, размер или количество — путает атрибуты соседних объектов
- 3. Пространственная галлюцинация: Путаница лево/право и перед/за — самая частая пространственная ошибка vision-моделей
- 4. OCR-галлюцинация: Дописывает скрытый или частичный текст правдоподобным, но неверным содержимым
- 5. Галлюцинация подсчёта: Подставляет ожидаемые количества (12 яиц в лотке) вместо реального подсчёта
Где это особенно важно
- Контроль качества: Обнаружение ложных дефектов в производстве — модель может "видеть" трещины, которые на самом деле тени
- Медицинская визуализация: Предотвращение ложных срабатываний: модель может галлюцинировать опухоли из артефактов или шума изображения
- Автономное вождение: Критическая безопасность: модель не должна галлюцинировать пешеходов или пропускать реальные препятствия
- Юридическая проверка документов: Предотвращение выдуманных пунктов или сумм — галлюцинированный текст в контрактах имеет юридические последствия
Интересный факт: Исследования OpenAI (2025) показывают, что модели обучены «блефовать» вместо выражения неуверенности. Когда модель говорит «Я вижу красную машину слева» со 100% уверенностью, её внутренняя уверенность может быть только 60%. Именно поэтому явные промпты верификации так важны.
Попробуйте сами!
Исследуй галерею ниже: 5 типов визуальных галлюцинаций, как они выглядят на практике, и конкретные стратегии промптов для обнаружения и предотвращения каждого из них.
Попробуй сам
Интерактивное демо этой техники
Обнаружить галлюцинацию подсчёта в ответе vision-модели
В лотке 12 яиц.
Раздел сетки 2×6:
- [1,1]: ЯЙЦО [1,2]: ЯЙЦО [1,3]: ПУСТО [1,4]: ЯЙЦО [1,5]: ЯЙЦО [1,6]: ЯЙЦО
- [2,1]: ЯЙЦО [2,2]: ПУСТО [2,3]: ЯЙЦО [2,4]: ПУСТО [2,5]: ЯЙЦО [2,6]: ЯЙЦО
Яйца: 9. Пустые ячейки: 3. Итого: 9 яиц из 12 ячеек.
Модели по умолчанию выдают "типичное" количество (12 яиц в лотке). Chain-of-Thought с сеткой заставляет считать каждый элемент отдельно.
Создайте бесплатный аккаунт для решения челленджей
3 челленджей с AI-проверкой для этого урока
Этот урок — часть структурированного курса по LLM.
Мой путь обучения