Vision модели
GPT-4V, Claude Vision
Проблема: ИИ умеет читать текст, но как насчёт изображений? Как заставить ИИ "видеть" и понимать визуальный контент — фото и скриншоты?
Решение: Учим ИИ видеть
Возможности зрения позволяют LLM обрабатывать и понимать изображения вместе с текстом. Это как описывать фото кому-то по телефону — теперь ИИ сам видит фото и может описать, что на нём. Изображения преобразуются в эмбеддинги, над которыми модель может рассуждать, что позволяет решать задачи вроде OCR и визуального Q&A.
Представьте это как описание фото по телефону:
- 1. Входное изображение: Изображение 224×224 поступает в Vision Transformer (ViT)
- 2. Разбиение на патчи: Изображение делится на 196 патчей по 16×16 пикселей — как разрезать фото на сетку
- 3. Кодирование в визуальные токены: Каждый патч становится визуальным токеном — 196 токенов, как слова в предложении для модели
- 4. Self-attention: Токены «смотрят» друг на друга: «этот патч — лицо, тот — шляпа, они связаны»
- 5. Объединение с текстом: Визуальные токены объединяются с текстовыми. Модель рассуждает над обоими, чтобы ответить на вопросы или описать сцену
Выше разрешение = больше патчей = больше токенов = выше стоимость. Изображение 512×512 даёт ~1024 токена. 4K-изображение может превысить 10 000 токенов.
Где это используется?
- Описание изображений: Генерация alt-текста для доступности
- Анализ документов: Чтение графиков, форм и скриншотов
- Визуальные Q&A: Ответы на вопросы о фотографиях
- Модерация контента: Детекция неподходящих изображений
Интересный факт: Современные vision-модели могут читать текст на изображениях (OCR), понимать мемы, анализировать графики и даже описывать художественный стиль! Они комбинируют визуальное понимание со знанием языка.
Попробуйте сами!
Используй интерактивный пример ниже, чтобы увидеть, как ИИ может анализировать и описывать разные типы изображений.
Хотите оптимизировать стоимость? Смотрите полный калькулятор в уроке Стоимость мультимодальных моделей.
Типичные ошибки
- Модель говорит «кот на диване», но это рисунок на подушке
- Модель считает 12 яиц, но их только 11
- Модель читает «OPEN» на вывеске, где написано «OPER»
Как работают Vision LLM
JPEG, PNG, WebP, GIF
Стоимость изображений в токенах
Низкое разрешение
~85 tokens
512x512
Среднее
~170 tokens
768x768
Высокое
~1500 tokens
2048x2048
Сравнение Vision моделей
Популярные применения
Лучшие практики
- Размер: Уменьшай изображения для экономии токенов, если детали не важны
- Формат: Используй JPEG для фото, PNG для скриншотов с текстом
- Промпт: Будь конкретен в том, что хочешь узнать об изображении
- Несколько изображений: Нумеруй или описывай изображения в промпте
Попробуй сам
Интерактивное демо этой техники
Получить полезное описание фотографии интерьера вместо общего
На изображении показана кухня. Она светлая и выглядит современно. Есть шкафы, столешница, мойка и окно. На столе стоят предметы.
1. Стиль: Скандинавский минимализм — белые фасады, натуральное дерево, отсутствие декора, функциональность.
2. Палитра: База — белый (#FAFAFA) + светлый дуб. Акценты — матовая чёрная фурнитура, зелень растений.
3. Материалы: Столешница — массив дуба (или качественный шпон), фасады — матовая эмаль, пол — светлый ламинат под дерево.
4. Освещение: Большое окно (северная сторона?) — мягкий рассеянный свет. Дополнительно: точечные LED под верхними шкафами.
5. Улучшения: Добавить фартук (сейчас стена без защиты у мойки), заменить верхнее освещение на подвесной светильник над островом для уюта.
"Опиши изображение" даёт бесполезный результат. Конкретные вопросы + роль эксперта превращают описание в профессиональный анализ с actionable рекомендациями.
Создайте бесплатный аккаунт для решения челленджей
6 челленджей с AI-проверкой для этого урока
Этот урок — часть структурированного курса по LLM.
Мой путь обучения