Анализ изображений
Практические применения
Проблема: Помимо простого описания изображений, нам нужен ИИ, который может глубоко анализировать визуальный контент — находить паттерны, сравнивать изображения и давать экспертные инсайты.
Решение: От пикселей к структурированным данным
В то время как Основы Vision охватывают общее понимание изображений (описание фотографий, визуальные Q&A), Анализ изображений фокусируется на извлечении структурированных данных из документов, графиков, медицинских снимков и технических диаграмм. Это как разница между описанием картины и чтением рентгена пациента — точность критична. Результаты возвращаются как структурированный вывод (JSON, таблицы) для дальнейшей обработки.
Представьте это как специалиста, читающего рентгеновский снимок:
- 1. Определяем тип документа: Это график, форма, медицинский снимок или чек? Стратегия промпта отличается для каждого
- 2. OCR + парсинг макета: Извлекаем текст, сохраняя структуру — колонки, заголовки, ячейки таблиц, а не просто текст
- 3. Структурированное извлечение: Запрашиваем JSON: {"patient": "...", "diagnosis": "...", "medications": [...]}
- 4. Валидация и заземление: Помечаем извлечённые данные как [VERIFIED] или [UNVERIFIED] — LLM может придумывать названия сущностей из документов
Где это используется?
- Обработка документов: Извлечение имён, дат, сумм из сканов контрактов, счетов, чеков — со структурированным JSON-выводом
- Чтение графиков и диаграмм: Интерпретация столбчатых, линейных, круговых диаграмм — извлечение данных и трендов
- Анализ медицинских отчётов: Парсинг лабораторных результатов, рентгенологических заключений — извлечение диагнозов, измерений, рекомендаций
- Технические диаграммы: Чтение архитектурных диаграмм, блок-схем, электрических схем — описание компонентов и связей
Интересный факт: Vision-модели теперь могут замечать то, что люди упускают! В медицинской визуализации ИИ обнаруживал раннюю стадию рака, которую пропустили радиологи. Комбинация ИИ + человек часто точнее, чем они по отдельности.
Попробуйте сами!
Используй интерактивный пример ниже, чтобы провести детальный анализ разных типов изображений и увидеть глубину понимания ИИ.
Качество промпта определяет всё
Обобщённый промпт
"Опиши это изображение"Результат:
Это медицинская форма с информацией о пациенте и результатами тестов.
Структурированный промпт
"Извлеки из этой медицинской формы: 1) Имя пациента 2) Дата 3) Все результаты как JSON {test: value, unit, reference_range}"Результат:
{"patient": "Иванова А.В.", "date": "2025-01-15", "results": [{"test": "Глюкоза", "value": 95, "unit": "мг/дл", "range": "70-100"}]}Для продвинутых OCR-техник — извлечение таблиц, многостраничные документы и рукописный текст — смотрите Анализ документов.
Маркеры уверенности
Всегда просите модель помечать извлечённые данные уровнями уверенности. Это помогает выявлять галлюцинированные значения.
For each extracted field, mark as: [VERIFIED] — clearly visible in the image [UNVERIFIED] — partially visible or inferred [NOT_FOUND] — not present in the image
Попробуй сам
Интерактивное демо этой техники
OCR и понимание документа: сырое извлечение текста vs структурированный анализ
МАГАЗИН ПРОДУКТЫ 24 МОЛОКО 2.5% 89.90 ХЛЕБ БОРОДИНСКИЙ 65.00 СЫР РОССИЙСКИЙ 450Г 389.00 БАНАНЫ 1.2КГ 95.88 ЯЙЦА С1 10ШТ 109.00 ИТОГО 748.78 ОПЛАТА КАРТОЙ СПАСИБО ЗА ПОКУПКУ
1. Магазин: Продукты 24
2. Товары:
[
{"name": "Молоко 2.5%", "quantity": 1, "unit": "шт", "price_per_unit": 89.90, "total": 89.90},
{"name": "Хлеб Бородинский", "quantity": 1, "unit": "шт", "price_per_unit": 65.00, "total": 65.00},
{"name": "Сыр Российский", "quantity": 1, "unit": "450г", "price_per_unit": 389.00, "total": 389.00},
{"name": "Бананы", "quantity": 1.2, "unit": "кг", "price_per_unit": 79.90, "total": 95.88},
{"name": "Яйца С1", "quantity": 10, "unit": "шт", "price_per_unit": 10.90, "total": 109.00}
]
3. Итого: {"subtotal": 748.78, "tax": 0, "total": 748.78, "payment_method": "card"}
4. Дата: Не указана на видимой части чека.
5. Проверка: 89.90 + 65.00 + 389.00 + 95.88 + 109.00 = 748.78 ✓ Совпадает.
OCR без структуры — просто текст. Промпт с JSON-схемой + верификация (сумма = итого?) превращает фото документа в данные, готовые для импорта в систему.
Создайте бесплатный аккаунт для решения челленджей
4 челленджей с AI-проверкой для этого урока
Этот урок — часть структурированного курса по LLM.
Мой путь обучения