Видео и аудио
Новые возможности
Проблема: Видео содержит массу информации — действия, диалоги, контекст во времени. Как ИИ может понимать и анализировать видеоконтент?
Решение: Описание фильма для слепых
Понимание видео позволяет ИИ анализировать последовательности кадров, отслеживать объекты во времени, понимать аудио и осмысливать нарратив. Это как тифлокомментарий к фильмам — объяснение того, что происходит на экране. Оно строится на возможностях vision-моделей и представляет передний край мультимодального ИИ.
Представьте это как описание фильма для того, кто не видит:
- 1. Сэмплируем ключевые кадры: Извлекаем кадры с интервалами (например, 1/сек) или по триггерам движения — LLM не могут обрабатывать видеопоток напрямую
- 2. Анализируем каждый кадр: Vision LLM описывает сцену, объекты, текст и действия в каждом выбранном кадре
- 3. Комбинируем с аудио: Транскрибируем аудиодорожку, совмещаем с таймкодами кадров для мультимодальной временной шкалы
- 4. Временное рассуждение: Связываем события между кадрами: «человек вошёл в 0:15, поднял предмет в 0:23, ушёл в 0:31»
Компромисс стоимости: 1 кадр/сек для 1-часового видео = 3 600 кадров × ~200 токенов = ~720K токенов. Сэмплирование 0.1 fps снижает стоимость в 10 раз, но может пропустить короткие события.
Где это используется?
- Саммаризация YouTube: Извлечь ключевые моменты из 2-часовой лекции в 5-минутный конспект с таймкодами
- Анализ камер безопасности: Сэмплировать 1 кадр/сек из круглосуточной записи, отмечать аномалии — человек в закрытой зоне, оставленная сумка
- Конспекты встреч: Комбинировать транскрипцию аудио + кадры экрана, чтобы создать список задач и решений
- Обучение и образование: Автогенерация тестов из записей лекций, определение ключевых визуальных моментов для нарезки
Интересный факт: Понимание видео — одна из самых сложных задач ИИ, потому что требует интеграции зрения, аудио и временного рассуждения одновременно. Современные модели вроде Gemini могут смотреть часы видео и отвечать на вопросы!
Попробуйте сами!
Используй интерактивный пример ниже, чтобы увидеть, как ИИ может анализировать и описывать видеоконтент, отслеживая события во времени.
Временное рассуждение: связь событий между кадрами
Пример: Птица на проводе (9-сек видео)
- 1Frame @0:00 — Голубь на проводе, голова опущена, чистит перья
- 2Frame @0:02 — Продолжает чистку, перебирает грудные перья
- 3Frame @0:04 — Поднимает голову, поворачивается — настороженная поза
- 4Frame @0:07 — Идёт по проводу, наклонившись вперёд
- 5Frame @0:08 — Взлетает и покидает кадр
- 6Frame @0:09 — Пустые провода, только листва
Анализ модели (все 6 кадров)
“Голубь отдыхает на проводе и чистит перья (0:00-0:02). Настораживается и поворачивает голову вправо (0:04). Идёт по проводу (0:07), затем взлетает (0:08), оставляя пустые провода на фоне зелёной листвы (0:09). Полная последовательность: покой → чистка → настороженность → движение → вылет.”
↓ Попробуй интерактивный симулятор ниже — меняй частоту сэмплинга и смотри, как деградирует ответ ИИ с меньшим количеством кадров.
Плохой промпт
“Что происходит в этом видео?”
→ Получаем несвязные описания кадров
Хороший промпт
“Отслеживай птицу между кадрами. Отмечай изменения позы и опиши полную последовательность поведения с таймкодами.”
→ Получаем связный нарратив выше
Попробуй сам
Интерактивное демо этой техники
Анализ видео: один кадр vs временной анализ по ключевым кадрам
На изображении видны руки, которые нарезают лук на разделочной доске. Используется кухонный нож.
1. Блюдо: Спагетти с домашним томатным соусом (Pasta al Pomodoro)
2. Хронология:
- 0:00 — Mise en place: ингредиенты подготовлены заранее
- 0:30 — Нарезка: мелкие кубики (brunoise) — хорошая техника
- 1:00 — Софрито: лук + чеснок на среднем огне (не пригорают)
- 1:30 — Добавление томатов: свежие, не консервированные
- 2:00 — Параллельная готовка: соус + паста одновременно
- 2:30 — Подача: соус сверху, не смешан полностью
3. Техники: Brunoise (нарезка), софрито (ароматическая база), параллельная готовка, правильная последовательность ингредиентов.
4. Уровень: Средний. Признаки: аккуратная нарезка, mise en place, параллельные процессы. Но свежие томаты вместо San Marzano — упрощение.
Для анализа видео: извлекаем ключевые кадры с таймстэмпами → подаём как последовательность → модель анализирует ПРОЦЕСС, а не статичную картинку. Один кадр ≠ видео.
Создайте бесплатный аккаунт для решения челленджей
5 челленджей с AI-проверкой для этого урока
Этот урок — часть структурированного курса по LLM.
Мой путь обучения