Урок 1

Vision модели

GPT-4V, Claude Vision

Проблема: ИИ умеет читать текст, но как насчёт изображений? Как заставить ИИ "видеть" и понимать визуальный контент — фото и скриншоты?

Решение: Учим ИИ видеть

Возможности зрения позволяют LLM обрабатывать и понимать изображения вместе с текстом. Обычная текстовая модель умеет только читать слова, а vision-модель может ещё и «смотреть» на фото, скриншот или скан документа и рассуждать о том, что на нём. Это как описывать фото кому-то по телефону — только теперь ИИ сам видит снимок, поэтому может отвечать на вопросы о нём, пересказать график или распознать текст на вывеске.

Как это работает

Под капотом изображение не «понимается» волшебным образом попиксельно. Сначала оно режется на сетку маленьких квадратиков фиксированного размера — патчей (patches), например 16×16 пикселей каждый. Визуальный энкодер (vision encoder), обычно трансформер (Transformer), превращает каждый патч в вектор чисел — эмбеддинг (embedding). Через механизм self-attention (self-attention) патчи сравнивают себя друг с другом («этот патч — часть лица, тот — часть шляпы, они связаны») и выстраивают представление всей сцены. Затем эти визуальные токены попадают в то же пространство, что и текстовые, поэтому языковая модель может рассуждать над словами и пикселями совместно. Это и есть основная идея моделей вроде CLIP и vision-версий GPT-4o, Claude и Gemini.

Когда использовать и о чём помнить

Бери зрение, когда ответ спрятан в картинке: генерация alt-текста для доступности, чтение счетов и форм, извлечение данных из графиков или ответ на вопрос «что не так на этом скриншоте?». Но держи в голове два компромисса. Во-первых, стоимость и задержка растут вместе с разрешением — больше пикселей значит больше патчей, больше токенов и больший счёт, поэтому уменьшай картинки, которым не нужна мелкая детализация. Во-вторых, vision-модели всё ещё галлюцинируют: они могут уверенно ошибиться в подсчёте объектов или неверно прочитать размытый текст. Конкретный пример: спроси модель «сколько людей на этом фото?» на снимке с толпой — и она ответит «около 8», когда их на самом деле 11: близко, но неверно. Везде, где важны точные числа или точные символы, проверяй вывод, а не доверяй ему слепо.

Представьте это как описание фото по телефону:

1. Входное изображение: Изображение 224×224 поступает в Vision Transformer (ViT)
2. Разбиение на патчи: Изображение делится на 196 патчей по 16×16 пикселей — как разрезать фото на сетку
3. Кодирование в визуальные токены: Каждый патч становится визуальным токеном — 196 токенов, как слова в предложении для модели
4. Self-attention: Токены «смотрят» друг на друга: «этот патч — лицо, тот — шляпа, они связаны»
5. Объединение с текстом: Визуальные токены объединяются с текстовыми. Модель рассуждает над обоими, чтобы ответить на вопросы или описать сцену

Выше разрешение = больше патчей = больше токенов = выше стоимость. Изображение 512×512 даёт ~1024 токена. 4K-изображение может превысить 10 000 токенов.

Где это используется?

Описание изображений: Генерация alt-текста для доступности
Анализ документов: Чтение графиков, форм и скриншотов
Визуальные Q&A: Ответы на вопросы о фотографиях
Модерация контента: Детекция неподходящих изображений

Интересный факт: Современные vision-модели могут читать текст на изображениях (OCR), понимать мемы, анализировать графики и даже описывать художественный стиль! Они комбинируют визуальное понимание со знанием языка.

Попробуйте сами!

Используй интерактивный пример ниже, чтобы увидеть, как ИИ может анализировать и описывать разные типы изображений.

Хотите оптимизировать стоимость? Смотрите полный калькулятор в уроке Стоимость мультимодальных моделей.

Типичные ошибки

Модель говорит «кот на диване», но это рисунок на подушке
Модель считает 12 яиц, но их только 11
Модель читает «OPEN» на вывеске, где написано «OPER»

Изучите все 5 типов визуальных галлюцинаций →

Vision Language Models

Как работают Vision LLM

Входное изображение

Визуальный энкодер

Токены изображения

Обработка LLM

JPEG, PNG, WebP, GIF

Стоимость изображений в токенах

Низкое разрешение

~85 tokens

512x512

Среднее

~170 tokens

768x768

Высокое

~1500 tokens

2048x2048

Сравнение Vision моделей

GPT-5(OpenAI)

$5.00/1M tokens

Лучшее visionПонимание видеоСложные рассуждения

Claude Sonnet 4(Anthropic)

$3.00/1M tokens

Анализ изображенийПонимание документовКод из скриншотов

GPT-4o(OpenAI)

$2.50/1M tokens

Описание изображенийOCRДетекция объектовГрафики/диаграммы

Gemini 2.0 Pro(Google)

$1.25/1M tokens

Изображения + Видео2M контекстАнализ кадров

Qwen2-VL 72B(Alibaba (Open))

Free (self-hosted)

Open sourceSelf-hostedХорошее качество

Лучшие практики

Размер: Уменьшай изображения для экономии токенов, если детали не важны
Формат: Используй JPEG для фото, PNG для скриншотов с текстом
Промпт: Будь конкретен в том, что хочешь узнать об изображении
Несколько изображений: Нумеруй или описывай изображения в промпте

Частые вопросы

Как нейросеть «видит» изображение?

Картинка не понимается попиксельно. Сначала она режется на сетку патчей (например, 16×16 пикселей), затем визуальный энкодер — обычно трансформер — превращает каждый патч в эмбеддинг (вектор чисел). Через self-attention патчи сравниваются друг с другом и формируют представление всей сцены, после чего эти визуальные токены попадают в то же пространство, что и текст, и языковая модель рассуждает над словами и пикселями совместно.

Чем vision-модель отличается от обычной текстовой LLM?

Обычная текстовая LLM умеет только читать и генерировать текст. Vision-модель дополнительно принимает на вход изображения — фото, скриншоты, сканы документов — и может отвечать на вопросы о них, описывать содержимое, читать текст с картинки (OCR) и анализировать графики. По сути это та же языковая модель, но с визуальным энкодером, который переводит изображение в токены, понятные модели.

Почему обработка картинок дороже, чем текста?

Стоимость и задержка растут вместе с разрешением: чем больше пикселей, тем на больше патчей режется изображение, тем больше визуальных токенов получает модель и тем выше счёт. Изображение 512×512 даёт примерно 1024 токена, а 4K-картинка может превысить 10 000 токенов. Если мелкая детализация не нужна, уменьшайте картинку перед отправкой, чтобы сэкономить.

Могут ли vision-модели ошибаться и галлюцинировать?

Да. Vision-модели уверенно, но неверно подсчитывают объекты, путают похожие предметы и неправильно читают размытый или мелкий текст. Например, на снимке с толпой модель может ответить «около 8» людей, когда их 11. Поэтому везде, где важны точные числа или точные символы (счета, формы, показания приборов), вывод нужно проверять, а не доверять ему слепо.

Попробуй сам

Интерактивное демо этой техники

Сравнение техник

Демо режим

Предзаписанные ответы

ЗадачаНачинающийАнализ

Получить полезное описание фотографии интерьера вместо общего

Без техники

Промпт

Опиши это изображение. [Фото: кухня в скандинавском стиле]

Ответ

На изображении показана кухня. Она светлая и выглядит современно. Есть шкафы, столешница, мойка и окно. На столе стоят предметы.

Токены:270/45

Время:1800ms

Качество:

С Зрение

С техникой

Промпт

Проанализируй фото кухни как дизайнер интерьеров: 1. Стиль: какой стиль, по каким признакам? 2. Цветовая палитра: основные цвета и акценты 3. Материалы: столешница, фасады, пол 4. Освещение: тип, направление, настроение 5. Что можно улучшить? [Фото: кухня в скандинавском стиле]

Ответ

1. Стиль: Скандинавский минимализм — белые фасады, натуральное дерево, отсутствие декора, функциональность.

2. Палитра: База — белый (#FAFAFA) + светлый дуб. Акценты — матовая чёрная фурнитура, зелень растений.

3. Материалы: Столешница — массив дуба (или качественный шпон), фасады — матовая эмаль, пол — светлый ламинат под дерево.

4. Освещение: Большое окно (северная сторона?) — мягкий рассеянный свет. Дополнительно: точечные LED под верхними шкафами.

5. Улучшения: Добавить фартук (сейчас стена без защиты у мойки), заменить верхнее освещение на подвесной светильник над островом для уюта.

👁️"Опиши изображение" → модель даёт поверхностное описание: "кухня, светлая, есть шкафы"

🧠Конкретные вопросы (стиль, палитра, материалы) направляют анализ в глубину

🧠Роль "дизайнер интерьеров" активирует профессиональную лексику и экспертный взгляд

✅Структурированный промпт = структурированный ответ. Каждый пункт = отдельный аспект анализа

Токены:310/200

Время:3200ms

Качество:

Почему это работает

"Опиши изображение" даёт бесполезный результат. Конкретные вопросы + роль эксперта превращают описание в профессиональный анализ с actionable рекомендациями.

1 / 2

Практика

Создайте бесплатный аккаунт для решения челленджей

6 челленджей с AI-проверкой для этого урока

Связанные уроки:Embeddings Image Analysis

Этот урок — часть структурированного курса по LLM.

Мой путь обучения

Урок 1

Vision модели

GPT-4V, Claude Vision

Решение: Учим ИИ видеть

Как это работает

Когда использовать и о чём помнить

Представьте это как описание фото по телефону:

1. Входное изображение: Изображение 224×224 поступает в Vision Transformer (ViT)
2. Разбиение на патчи: Изображение делится на 196 патчей по 16×16 пикселей — как разрезать фото на сетку
3. Кодирование в визуальные токены: Каждый патч становится визуальным токеном — 196 токенов, как слова в предложении для модели
4. Self-attention: Токены «смотрят» друг на друга: «этот патч — лицо, тот — шляпа, они связаны»
5. Объединение с текстом: Визуальные токены объединяются с текстовыми. Модель рассуждает над обоими, чтобы ответить на вопросы или описать сцену

Где это используется?

Описание изображений: Генерация alt-текста для доступности
Анализ документов: Чтение графиков, форм и скриншотов
Визуальные Q&A: Ответы на вопросы о фотографиях
Модерация контента: Детекция неподходящих изображений

Попробуйте сами!

Хотите оптимизировать стоимость? Смотрите полный калькулятор в уроке Стоимость мультимодальных моделей.

Типичные ошибки

Модель говорит «кот на диване», но это рисунок на подушке
Модель считает 12 яиц, но их только 11
Модель читает «OPEN» на вывеске, где написано «OPER»

Изучите все 5 типов визуальных галлюцинаций →

Vision Language Models

Как работают Vision LLM

Входное изображение

Визуальный энкодер

Токены изображения

Обработка LLM

JPEG, PNG, WebP, GIF

Стоимость изображений в токенах

Низкое разрешение

~85 tokens

512x512

Среднее

~170 tokens

768x768

Высокое

~1500 tokens

2048x2048

Сравнение Vision моделей

GPT-5(OpenAI)

$5.00/1M tokens

Лучшее visionПонимание видеоСложные рассуждения

Claude Sonnet 4(Anthropic)

$3.00/1M tokens

Анализ изображенийПонимание документовКод из скриншотов

GPT-4o(OpenAI)

$2.50/1M tokens

Описание изображенийOCRДетекция объектовГрафики/диаграммы

Gemini 2.0 Pro(Google)

$1.25/1M tokens

Изображения + Видео2M контекстАнализ кадров

Qwen2-VL 72B(Alibaba (Open))

Free (self-hosted)

Open sourceSelf-hostedХорошее качество

Лучшие практики

Размер: Уменьшай изображения для экономии токенов, если детали не важны
Формат: Используй JPEG для фото, PNG для скриншотов с текстом
Промпт: Будь конкретен в том, что хочешь узнать об изображении
Несколько изображений: Нумеруй или описывай изображения в промпте

Частые вопросы

Как нейросеть «видит» изображение?

Чем vision-модель отличается от обычной текстовой LLM?

Почему обработка картинок дороже, чем текста?

Могут ли vision-модели ошибаться и галлюцинировать?

Попробуй сам

Интерактивное демо этой техники

Сравнение техник

Демо режим

Предзаписанные ответы

ЗадачаНачинающийАнализ

Получить полезное описание фотографии интерьера вместо общего

Без техники

Промпт

Опиши это изображение. [Фото: кухня в скандинавском стиле]

Ответ

Токены:270/45

Время:1800ms

Качество:

С Зрение

С техникой

Промпт

Ответ

2. Палитра: База — белый (#FAFAFA) + светлый дуб. Акценты — матовая чёрная фурнитура, зелень растений.

👁️"Опиши изображение" → модель даёт поверхностное описание: "кухня, светлая, есть шкафы"

🧠Конкретные вопросы (стиль, палитра, материалы) направляют анализ в глубину

🧠Роль "дизайнер интерьеров" активирует профессиональную лексику и экспертный взгляд

✅Структурированный промпт = структурированный ответ. Каждый пункт = отдельный аспект анализа

Токены:310/200

Время:3200ms

Качество:

Почему это работает

1 / 2

Практика

Создайте бесплатный аккаунт для решения челленджей

6 челленджей с AI-проверкой для этого урока

Связанные уроки:Embeddings Image Analysis

Этот урок — часть структурированного курса по LLM.

Мой путь обучения

Vision модели

Решение: Учим ИИ видеть

Как это работает

Когда использовать и о чём помнить

Представьте это как описание фото по телефону:

Где это используется?

Попробуйте сами!

Типичные ошибки

Как работают Vision LLM

Стоимость изображений в токенах

Сравнение Vision моделей

Популярные применения

Лучшие практики

Частые вопросы

Попробуй сам

Vision модели

Решение: Учим ИИ видеть

Как это работает

Когда использовать и о чём помнить

Представьте это как описание фото по телефону:

Где это используется?

Попробуйте сами!

Типичные ошибки

Как работают Vision LLM

Стоимость изображений в токенах

Сравнение Vision моделей

Популярные применения

Лучшие практики

Частые вопросы

Попробуй сам