Анализ документов
От скана к структурированным данным
Проблема: Традиционный OCR даёт сырой текст с ломаной разметкой, разделёнными словами и ошибками распознавания. Для превращения этого в структурированные, валидированные данные нужен второй шаг — и LLM отлично с этим справляются.
Решение: От пикселей к валидированным данным
Традиционный OCR извлекает текст из изображений, но теряет структуру — колонки сливаются, таблицы ломаются, рукописный текст искажается. LLM-based анализ документов идёт дальше: он читает, исправляет и структурирует текст за один проход. Модель понимает, что "$I2.99" — это на самом деле "$12.99", что "TechParts L LC" — это "TechParts LLC", а число внизу — итого, а не ещё одна позиция. Ключевое дополнение: маркеры уверенности — каждое извлечённое поле помечается [VERIFIED] или [UNVERIFIED], чтобы downstream-системы знали, чему доверять.
Представьте это как помощника юриста, читающего контракты для юридической фирмы:
- 1. Сырое OCR-извлечение: Сканирование изображения документа и извлечение всего текста — ожидайте ошибок: разделённые слова, ошибки распознавания, ломаная разметка
- 2. LLM-структурирование и коррекция: LLM читает сырой OCR, исправляет ошибки (разделённые слова, неверные цифры) и организует в логические секции
- 3. Извлечение по схеме: Применение целевой JSON-схемы для извлечения конкретных полей — компания, суммы, даты, позиции
- 4. Валидация и маркировка уверенности: Пометка каждого поля как [VERIFIED] или [UNVERIFIED] — перекрёстная проверка итогов, отметка предполагаемых значений, ловля галлюцинаций
Где это используется?
- Обработка счетов и чеков: Извлечение поставщика, сумм, позиций, налогов из сканов счетов — вывод в структурированный JSON для бухгалтерских систем
- Анализ контрактов: Парсинг условий, дат, сторон, обязательств из юридических документов с маркерами уверенности для неоднозначных прочтений
- Медицинские записи: Извлечение диагнозов, лекарств, лабораторных показателей из рукописных и печатных медицинских форм
- Технические чертежи и схемы: Чтение размеров, подписей, номеров деталей с инженерных чертежей и электрических схем
Интересный факт: OCR-free модели вроде mPLUG-DocOwl2 и Docopilot (CVPR 2025) полностью пропускают этап OCR — они обрабатывают изображение документа напрямую как визуальные токены. Это устраняет ошибки OCR в источнике, хотя им всё равно нужны grounding-промпты для предотвращения галлюцинаций.
Попробуйте сами!
Посмотри интерактивный pipeline ниже: как грязный OCR-вывод превращается в чистый, валидированный JSON через LLM-структурирование.
Попробуй сам
Интерактивное демо этой техники
Извлечь структурированные данные из скана документа вместо сырого текста
TechParts L LC I NV-2024-0847 2024-03-15 Wid get A 50 649.50 Connector B 100 350.00 Cable Set C 25 700.00 Tax 1,869.45
{ "company": "TechParts LLC", // [VERIFIED] "invoice_number": "INV-2024-0847", // [VERIFIED] "date": "2024-03-15", // [VERIFIED] "items": [ {"name": "Widget A", "qty": 50, "unit_price": 12.99, "total": 649.50}, {"name": "Connector B", "qty": 100, "unit_price": 3.50, "total": 350.00}, {"name": "Cable Set C", "qty": 25, "unit_price": 28.00, "total": 700.00} ], "tax": 169.95, // [VERIFIED] "tax_rate": 0.10, // [UNVERIFIED — inferred] "grand_total": 1869.45 // [VERIFIED] }
JSON-схема + инструкция коррекции + маркеры уверенности превращают сырой OCR в production-ready данные. Модель исправляет ошибки и честно помечает предположения.
Создайте бесплатный аккаунт для решения челленджей
3 челленджей с AI-проверкой для этого урока
Этот урок — часть структурированного курса по LLM.
Мой путь обучения