Извлечение информации
Структурированные данные из текста
Проблема: Важные факты скрыты в неструктурированном тексте — письмах, документах, веб-страницах. Как автоматически вытащить нужные данные?
Решение: Детектив, ищущий улики
Извлечение информации использует LLM для идентификации и извлечения конкретных данных из неструктурированного текста. Например, из текста "Контракт между Acme Corp и Иваном Петровым от 15 января 2024 на $50,000..." ИИ извлекает структурированный JSON: { сторона_а: "Acme Corp", сторона_б: "Иван Петров", дата: "2024-01-15", сумма: 50000 }. Подзадача извлечения — распознавание именованных сущностей, а результаты лучше выводить как структурированный вывод.
Представьте это как детектива, ищущего улики:
- 1. Определяем типы сущностей: Что извлекаем: людей, организации, даты, суммы, адреса
- 2. Определяем схему вывода (JSON): Указываем точные имена полей, типы и структуру вложенности для вывода
- 3. Даём примеры с граничными случаями: Показываем, как обрабатывать отсутствующие поля, неоднозначные сущности и многозначные поля
- 4. ИИ извлекает сущности: Модель читает текст и заполняет JSON-схему найденными значениями
- 5. Валидируем по источнику: Сверяем каждое извлечённое поле — помечаем как ПОДТВЕРЖДЕНО (найдено в тексте) или НЕ ПОДТВЕРЖДЕНО (выведено)
Где это используется?
- Парсинг резюме: Извлечение навыков, опыта, контактов
- Обработка счетов: Вытягивание сумм, дат, данных поставщиков
- Медицинские записи: Поиск диагнозов, лекарств, дат
- Анализ контрактов: Определение условий, сторон, обязательств
Интересный факт: LLM могут извлекать информацию из сложных связей! "Иван работает в Acme, которая была основана в 2010" — ИИ может понять, что компания Ивана была основана в 2010, хотя это явно не указано.
Попробуйте сами!
Используй интерактивный пример ниже, чтобы извлечь конкретную информацию из разных типов текстовых документов.
Apple Inc. объявила, что CEO Тим Кук представит новый iPhone в штаб-квартире в Купертино 12 сентября 2024 года. Компания ожидает выручку в $90 миллиардов.
- • NER — находит именованные сущности (Человек, Организация, Место, Дата, Деньги) в тексте.
- • Связи — находит связи между сущностями: работает_в, находится_в, владеет.
- • LLMs — делают это без обучения. Не нужны тренировочные данные — опишите, что извлекать.
Попробуй сам
Интерактивное демо этой техники
Извлеки ключевые сущности из новостной статьи
В тексте упоминаются: Tesla, Илон Маск, Берлин, Роберт Хабек. Также говорится о строительстве завода и рабочих местах.
[
{"entity": "Илон Маск", "category": "PERSON", "attributes": {"role": "руководитель Tesla"}},
{"entity": "Роберт Хабек", "category": "PERSON", "attributes": {"role": "министр экономики Германии"}},
{"entity": "Tesla", "category": "ORG", "attributes": {"type": "автопроизводитель"}},
{"entity": "Берлин", "category": "LOCATION", "attributes": {"type": "город", "country": "Германия"}},
{"entity": "Германия", "category": "LOCATION", "attributes": {"type": "страна"}},
{"entity": "15 марта 2025", "category": "DATE", "attributes": {"iso": "2025-03-15"}},
{"entity": "5 млрд евро", "category": "MONEY", "attributes": {"amount": 5000000000, "currency": "EUR"}},
{"entity": "10 000", "category": "NUMBER", "attributes": {"value": 10000, "context": "рабочие места"}}
]
Определение категорий с атрибутами и выходного формата (JSON) превращает размытый список сущностей в структурированные данные, пригодные для дальнейшей обработки.
Создайте бесплатный аккаунт для решения челленджей
5 челленджей с AI-проверкой для этого урока
Этот урок — часть структурированного курса по LLM.
Мой путь обучения