Урок 9Emerging

Видео и аудио

Новые возможности

Проблема: Видео содержит массу информации — действия, диалоги, контекст во времени. Как ИИ может понимать и анализировать видеоконтент?

Решение: Описание фильма для слепых

Понимание видео позволяет ИИ анализировать последовательности кадров, отслеживать объекты во времени, понимать аудио и осмысливать нарратив. Это как тифлокомментарий к фильмам — объяснение того, что происходит на экране. Оно строится на возможностях vision-моделей и представляет передний край мультимодального ИИ.

Представьте это как описание фильма для того, кто не видит:

1. Сэмплируем ключевые кадры: Извлекаем кадры с интервалами (например, 1/сек) или по триггерам движения — LLM не могут обрабатывать видеопоток напрямую
2. Анализируем каждый кадр: Vision LLM описывает сцену, объекты, текст и действия в каждом выбранном кадре
3. Комбинируем с аудио: Транскрибируем аудиодорожку, совмещаем с таймкодами кадров для мультимодальной временной шкалы
4. Временное рассуждение: Связываем события между кадрами: «человек вошёл в 0:15, поднял предмет в 0:23, ушёл в 0:31»

Компромисс стоимости: 1 кадр/сек для 1-часового видео = 3 600 кадров × ~200 токенов = ~720K токенов. Сэмплирование 0.1 fps снижает стоимость в 10 раз, но может пропустить короткие события.

Где это используется?

Саммаризация YouTube: Извлечь ключевые моменты из 2-часовой лекции в 5-минутный конспект с таймкодами
Анализ камер безопасности: Сэмплировать 1 кадр/сек из круглосуточной записи, отмечать аномалии — человек в закрытой зоне, оставленная сумка
Конспекты встреч: Комбинировать транскрипцию аудио + кадры экрана, чтобы создать список задач и решений
Обучение и образование: Автогенерация тестов из записей лекций, определение ключевых визуальных моментов для нарезки

Интересный факт: Понимание видео — одна из самых сложных задач ИИ, потому что требует интеграции зрения, аудио и временного рассуждения одновременно. Современные модели вроде Gemini могут смотреть часы видео и отвечать на вопросы!

Попробуйте сами!

Используй интерактивный пример ниже, чтобы увидеть, как ИИ может анализировать и описывать видеоконтент, отслеживая события во времени.

Временное рассуждение: связь событий между кадрами

Пример: Птица на проводе (9-сек видео)

1Frame @0:00 — Голубь на проводе, голова опущена, чистит перья
2Frame @0:02 — Продолжает чистку, перебирает грудные перья
3Frame @0:04 — Поднимает голову, поворачивается — настороженная поза
4Frame @0:07 — Идёт по проводу, наклонившись вперёд
5Frame @0:08 — Взлетает и покидает кадр
6Frame @0:09 — Пустые провода, только листва

Анализ модели (все 6 кадров)

“Голубь отдыхает на проводе и чистит перья (0:00-0:02). Настораживается и поворачивает голову вправо (0:04). Идёт по проводу (0:07), затем взлетает (0:08), оставляя пустые провода на фоне зелёной листвы (0:09). Полная последовательность: покой → чистка → настороженность → движение → вылет.”

↓ Попробуй интерактивный симулятор ниже — меняй частоту сэмплинга и смотри, как деградирует ответ ИИ с меньшим количеством кадров.

Плохой промпт

“Что происходит в этом видео?”

→ Получаем несвязные описания кадров

Хороший промпт

“Отслеживай птицу между кадрами. Отмечай изменения позы и опиши полную последовательность поведения с таймкодами.”

→ Получаем связный нарратив выше

Попробуй сам

Интерактивное демо этой техники

Сравнение техник

Демо режим

Предзаписанные ответы

ЗадачаНачинающийАнализ

Анализ видео: один кадр vs временной анализ по ключевым кадрам

Без техники

Промпт

Опиши что происходит в этом видео. [Один кадр из кулинарного видео: руки нарезают лук]

Ответ

На изображении видны руки, которые нарезают лук на разделочной доске. Используется кухонный нож.

Токены:280/30

Время:1500ms

Качество:

С Видео

С техникой

Промпт

Проанализируй кулинарное видео по 6 ключевым кадрам (извлечены каждые 30 сек): Кадр 1 (0:00): Ингредиенты на столе — лук, чеснок, томаты, оливковое масло, спагетти Кадр 2 (0:30): Нарезка лука мелкими кубиками Кадр 3 (1:00): Обжарка лука и чеснока в сковороде Кадр 4 (1:30): Добавление нарезанных томатов Кадр 5 (2:00): Соус кипит, спагетти варятся в кастрюле Кадр 6 (2:30): Готовое блюдо — спагетти с томатным соусом на тарелке Опиши: 1. Какое блюдо готовится? 2. Хронология действий с таймстэмпами 3. Техники готовки, которые видны 4. Оценка уровня повара (начинающий/средний/профи)

Ответ

1. Блюдо: Спагетти с домашним томатным соусом (Pasta al Pomodoro)

2. Хронология:

0:00 — Mise en place: ингредиенты подготовлены заранее
0:30 — Нарезка: мелкие кубики (brunoise) — хорошая техника
1:00 — Софрито: лук + чеснок на среднем огне (не пригорают)
1:30 — Добавление томатов: свежие, не консервированные
2:00 — Параллельная готовка: соус + паста одновременно
2:30 — Подача: соус сверху, не смешан полностью

3. Техники: Brunoise (нарезка), софрито (ароматическая база), параллельная готовка, правильная последовательность ингредиентов.

4. Уровень: Средний. Признаки: аккуратная нарезка, mise en place, параллельные процессы. Но свежие томаты вместо San Marzano — упрощение.

👁️Один кадр = один момент. Нельзя понять процесс, рецепт или хронологию

🧠Ключевые кадры с таймстэмпами дают временное измерение — модель видит прогресс готовки

🔍Структурированные вопросы (блюдо, хронология, техники, уровень) извлекают максимум из визуальных данных

✅Для видео: извлеки ключевые кадры → опиши каждый → попроси модель анализировать последовательность

Токены:380/260

Время:3800ms

Качество:

Почему это работает

Для анализа видео: извлекаем ключевые кадры с таймстэмпами → подаём как последовательность → модель анализирует ПРОЦЕСС, а не статичную картинку. Один кадр ≠ видео.

1 / 2

Практика

Создайте бесплатный аккаунт для решения челленджей

5 челленджей с AI-проверкой для этого урока

Связанные уроки:Image Analysis Summarization

Этот урок — часть структурированного курса по LLM.

Мой путь обучения

Урок 9Emerging

Видео и аудио

Новые возможности

Решение: Описание фильма для слепых

Представьте это как описание фильма для того, кто не видит:

1. Сэмплируем ключевые кадры: Извлекаем кадры с интервалами (например, 1/сек) или по триггерам движения — LLM не могут обрабатывать видеопоток напрямую
2. Анализируем каждый кадр: Vision LLM описывает сцену, объекты, текст и действия в каждом выбранном кадре
3. Комбинируем с аудио: Транскрибируем аудиодорожку, совмещаем с таймкодами кадров для мультимодальной временной шкалы
4. Временное рассуждение: Связываем события между кадрами: «человек вошёл в 0:15, поднял предмет в 0:23, ушёл в 0:31»

Где это используется?

Саммаризация YouTube: Извлечь ключевые моменты из 2-часовой лекции в 5-минутный конспект с таймкодами
Анализ камер безопасности: Сэмплировать 1 кадр/сек из круглосуточной записи, отмечать аномалии — человек в закрытой зоне, оставленная сумка
Конспекты встреч: Комбинировать транскрипцию аудио + кадры экрана, чтобы создать список задач и решений
Обучение и образование: Автогенерация тестов из записей лекций, определение ключевых визуальных моментов для нарезки

Попробуйте сами!

Временное рассуждение: связь событий между кадрами

Пример: Птица на проводе (9-сек видео)

1Frame @0:00 — Голубь на проводе, голова опущена, чистит перья
2Frame @0:02 — Продолжает чистку, перебирает грудные перья
3Frame @0:04 — Поднимает голову, поворачивается — настороженная поза
4Frame @0:07 — Идёт по проводу, наклонившись вперёд
5Frame @0:08 — Взлетает и покидает кадр
6Frame @0:09 — Пустые провода, только листва

Анализ модели (все 6 кадров)

Плохой промпт

“Что происходит в этом видео?”

→ Получаем несвязные описания кадров

Хороший промпт

→ Получаем связный нарратив выше

Попробуй сам

Интерактивное демо этой техники

Сравнение техник

Демо режим

Предзаписанные ответы

ЗадачаНачинающийАнализ

Анализ видео: один кадр vs временной анализ по ключевым кадрам

Без техники

Промпт

Опиши что происходит в этом видео. [Один кадр из кулинарного видео: руки нарезают лук]

Ответ

На изображении видны руки, которые нарезают лук на разделочной доске. Используется кухонный нож.

Токены:280/30

Время:1500ms

Качество:

С Видео

С техникой

Промпт

Ответ

1. Блюдо: Спагетти с домашним томатным соусом (Pasta al Pomodoro)

2. Хронология:

0:00 — Mise en place: ингредиенты подготовлены заранее
0:30 — Нарезка: мелкие кубики (brunoise) — хорошая техника
1:00 — Софрито: лук + чеснок на среднем огне (не пригорают)
1:30 — Добавление томатов: свежие, не консервированные
2:00 — Параллельная готовка: соус + паста одновременно
2:30 — Подача: соус сверху, не смешан полностью

👁️Один кадр = один момент. Нельзя понять процесс, рецепт или хронологию

🧠Ключевые кадры с таймстэмпами дают временное измерение — модель видит прогресс готовки

🔍Структурированные вопросы (блюдо, хронология, техники, уровень) извлекают максимум из визуальных данных

✅Для видео: извлеки ключевые кадры → опиши каждый → попроси модель анализировать последовательность

Токены:380/260

Время:3800ms

Качество:

Почему это работает

1 / 2

Практика

Создайте бесплатный аккаунт для решения челленджей

5 челленджей с AI-проверкой для этого урока

Связанные уроки:Image Analysis Summarization

Этот урок — часть структурированного курса по LLM.

Мой путь обучения