Vision модели
GPT-4V, Claude Vision
Проблема: ИИ умеет читать текст, но как насчёт изображений? Как заставить ИИ "видеть" и понимать визуальный контент — фото и скриншоты?
Решение: Учим ИИ видеть
Возможности зрения позволяют LLM обрабатывать и понимать изображения вместе с текстом. Обычная текстовая модель умеет только читать слова, а vision-модель может ещё и «смотреть» на фото, скриншот или скан документа и рассуждать о том, что на нём. Это как описывать фото кому-то по телефону — только теперь ИИ сам видит снимок, поэтому может отвечать на вопросы о нём, пересказать график или распознать текст на вывеске.
Как это работает
Под капотом изображение не «понимается» волшебным образом попиксельно. Сначала оно режется на сетку маленьких квадратиков фиксированного размера — патчей (patches), например 16×16 пикселей каждый. Визуальный энкодер (vision encoder), обычно трансформер (Transformer), превращает каждый патч в вектор чисел — эмбеддинг (embedding). Через механизм self-attention (self-attention) патчи сравнивают себя друг с другом («этот патч — часть лица, тот — часть шляпы, они связаны») и выстраивают представление всей сцены. Затем эти визуальные токены попадают в то же пространство, что и текстовые, поэтому языковая модель может рассуждать над словами и пикселями совместно. Это и есть основная идея моделей вроде CLIP и vision-версий GPT-4o, Claude и Gemini.
Когда использовать и о чём помнить
Бери зрение, когда ответ спрятан в картинке: генерация alt-текста для доступности, чтение счетов и форм, извлечение данных из графиков или ответ на вопрос «что не так на этом скриншоте?». Но держи в голове два компромисса. Во-первых, стоимость и задержка растут вместе с разрешением — больше пикселей значит больше патчей, больше токенов и больший счёт, поэтому уменьшай картинки, которым не нужна мелкая детализация. Во-вторых, vision-модели всё ещё галлюцинируют: они могут уверенно ошибиться в подсчёте объектов или неверно прочитать размытый текст. Конкретный пример: спроси модель «сколько людей на этом фото?» на снимке с толпой — и она ответит «около 8», когда их на самом деле 11: близко, но неверно. Везде, где важны точные числа или точные символы, проверяй вывод, а не доверяй ему слепо.
Представьте это как описание фото по телефону:
- 1. Входное изображение: Изображение 224×224 поступает в Vision Transformer (ViT)
- 2. Разбиение на патчи: Изображение делится на 196 патчей по 16×16 пикселей — как разрезать фото на сетку
- 3. Кодирование в визуальные токены: Каждый патч становится визуальным токеном — 196 токенов, как слова в предложении для модели
- 4. Self-attention: Токены «смотрят» друг на друга: «этот патч — лицо, тот — шляпа, они связаны»
- 5. Объединение с текстом: Визуальные токены объединяются с текстовыми. Модель рассуждает над обоими, чтобы ответить на вопросы или описать сцену
Выше разрешение = больше патчей = больше токенов = выше стоимость. Изображение 512×512 даёт ~1024 токена. 4K-изображение может превысить 10 000 токенов.
Где это используется?
- Описание изображений: Генерация alt-текста для доступности
- Анализ документов: Чтение графиков, форм и скриншотов
- Визуальные Q&A: Ответы на вопросы о фотографиях
- Модерация контента: Детекция неподходящих изображений
Интересный факт: Современные vision-модели могут читать текст на изображениях (OCR), понимать мемы, анализировать графики и даже описывать художественный стиль! Они комбинируют визуальное понимание со знанием языка.
Попробуйте сами!
Используй интерактивный пример ниже, чтобы увидеть, как ИИ может анализировать и описывать разные типы изображений.
Хотите оптимизировать стоимость? Смотрите полный калькулятор в уроке Стоимость мультимодальных моделей.
Типичные ошибки
- Модель говорит «кот на диване», но это рисунок на подушке
- Модель считает 12 яиц, но их только 11
- Модель читает «OPEN» на вывеске, где написано «OPER»
Как работают Vision LLM
JPEG, PNG, WebP, GIF
Стоимость изображений в токенах
Низкое разрешение
~85 tokens
512x512
Среднее
~170 tokens
768x768
Высокое
~1500 tokens
2048x2048
Сравнение Vision моделей
Популярные применения
Лучшие практики
- Размер: Уменьшай изображения для экономии токенов, если детали не важны
- Формат: Используй JPEG для фото, PNG для скриншотов с текстом
- Промпт: Будь конкретен в том, что хочешь узнать об изображении
- Несколько изображений: Нумеруй или описывай изображения в промпте
Частые вопросы
Как нейросеть «видит» изображение?
Картинка не понимается попиксельно. Сначала она режется на сетку патчей (например, 16×16 пикселей), затем визуальный энкодер — обычно трансформер — превращает каждый патч в эмбеддинг (вектор чисел). Через self-attention патчи сравниваются друг с другом и формируют представление всей сцены, после чего эти визуальные токены попадают в то же пространство, что и текст, и языковая модель рассуждает над словами и пикселями совместно.
Чем vision-модель отличается от обычной текстовой LLM?
Обычная текстовая LLM умеет только читать и генерировать текст. Vision-модель дополнительно принимает на вход изображения — фото, скриншоты, сканы документов — и может отвечать на вопросы о них, описывать содержимое, читать текст с картинки (OCR) и анализировать графики. По сути это та же языковая модель, но с визуальным энкодером, который переводит изображение в токены, понятные модели.
Почему обработка картинок дороже, чем текста?
Стоимость и задержка растут вместе с разрешением: чем больше пикселей, тем на больше патчей режется изображение, тем больше визуальных токенов получает модель и тем выше счёт. Изображение 512×512 даёт примерно 1024 токена, а 4K-картинка может превысить 10 000 токенов. Если мелкая детализация не нужна, уменьшайте картинку перед отправкой, чтобы сэкономить.
Могут ли vision-модели ошибаться и галлюцинировать?
Да. Vision-модели уверенно, но неверно подсчитывают объекты, путают похожие предметы и неправильно читают размытый или мелкий текст. Например, на снимке с толпой модель может ответить «около 8» людей, когда их 11. Поэтому везде, где важны точные числа или точные символы (счета, формы, показания приборов), вывод нужно проверять, а не доверять ему слепо.
Попробуй сам
Интерактивное демо этой техники
Получить полезное описание фотографии интерьера вместо общего
На изображении показана кухня. Она светлая и выглядит современно. Есть шкафы, столешница, мойка и окно. На столе стоят предметы.
1. Стиль: Скандинавский минимализм — белые фасады, натуральное дерево, отсутствие декора, функциональность.
2. Палитра: База — белый (#FAFAFA) + светлый дуб. Акценты — матовая чёрная фурнитура, зелень растений.
3. Материалы: Столешница — массив дуба (или качественный шпон), фасады — матовая эмаль, пол — светлый ламинат под дерево.
4. Освещение: Большое окно (северная сторона?) — мягкий рассеянный свет. Дополнительно: точечные LED под верхними шкафами.
5. Улучшения: Добавить фартук (сейчас стена без защиты у мойки), заменить верхнее освещение на подвесной светильник над островом для уюта.
"Опиши изображение" даёт бесполезный результат. Конкретные вопросы + роль эксперта превращают описание в профессиональный анализ с actionable рекомендациями.
Создайте бесплатный аккаунт для решения челленджей
6 челленджей с AI-проверкой для этого урока
Этот урок — часть структурированного курса по LLM.
Мой путь обучения