Стоимость мультимодальности
Сколько стоит одно изображение?
Проблема: Стоимость Vision API может быть неожиданно высокой и трудно предсказуемой. Изображение 4096×4096 стоит в 10–100 раз дороже миниатюры 256×256. Видео умножает это на кадры×секунды. Без понимания математики токенов команды получают неожиданные счета на тысячи долларов.
Решение: Экономика визуальных токенов
Когда ты отправляешь изображение в vision-модель, оно разбивается на патчи (обычно блоки 16×16 пикселей). Каждый патч становится визуальными токенами. Больше пикселей = больше токенов = выше стоимость. Изображение 4096×4096 может стоить в 10–100 раз дороже, чем 256×256. Разные провайдеры используют разные модели тарификации: OpenAI — тайловую, Claude — на основе разрешения, Gemini — фиксированную цену за изображение. Для видео: умножай на кадры в секунду × длительность.
Представьте это как оплату печати фото в высоком разрешении vs миниатюры — платишь за пиксель, а не за изображение:
- 1. Сетка патчей: Изображения разбиваются на патчи (16×16 пикселей). Каждый патч → визуальные токены. Разрешение напрямую определяет стоимость: 4× разрешение = ~4× токены.
- 2. Тарификация провайдеров: OpenAI: тайловая (low=85 токенов, high=85+170×тайлы). Claude: пропорционально разрешению. Gemini: фиксированные 258 токенов/изображение. Одно изображение — разные стоимости.
- 3. Мультипликатор видео: Видео = много изображений. 1 fps × 60 сек = 60 кадров. При $0.003/кадр — это $0.18/мин. При 30 fps: $5.40/мин. Выбирай FPS осознанно.
- 4. Стратегии оптимизации: Ресайз перед отправкой (наибольшая экономия), кроп ROI, используй низкую детализацию где возможно, батчинг с кешированием промптов, обрабатывай только ключевые кадры для видео.
Влияние стоимости по кейсам
- E-commerce: Обработка 10 000 фото товаров в день. При высоком разрешении: $75/день. После ресайза до 512×512: $8/день. 90% экономии.
- Медицинские изображения: Рентгены и МРТ в высоком разрешении требуют максимальной детализации — без компромиссов. Бюджет $0.01–0.03 за изображение.
- Видеонаблюдение: Камера 24/7 при 1 fps = 86 400 кадров/день. Даже при низкой детализации: $20+/день за камеру. Используй обработку по событиям.
- Обработка документов: Сканы договоров при 1024×1024 — оптимально. Более высокое разрешение увеличивает стоимость при минимальном улучшении OCR.
Интересный факт: Одно изображение 4K (3840×2160) в GPT-4o использует около 1 105 токенов в режиме высокой детализации — столько же, сколько ~800 слов текста. Одна минута видео при 1 fps потребует 66 300 токенов, что обойдётся примерно в $0.17. При 30 fps это уже $5.00 в минуту.
Попробуйте сами!
Используй калькулятор ниже, чтобы оценить стоимость для твоего кейса: настрой разрешение, уровень детализации и смотри цены у разных провайдеров в реальном времени.
Попробуй сам
Интерактивное демо этой техники
Рассчитать стоимость обработки изображений у разных провайдеров
Стоимость зависит от провайдера и размера изображения.
| Провайдер | Токенов/фото | /1000 фото | |-----------|-------------|--------|-------------| | GPT-4o | 765 | 1.91 | | Claude 3.5 | 1,398 | 4.19 | | Gemini 1.5 | 258 | 0.32 |
Рекомендация: Gemini 1.5 дешевле в 6× vs GPT-4o и 13× vs Claude для этого кейса. Но если нужна максимальная точность OCR — Claude лидирует.
Разница в стоимости между провайдерами может быть 13×. Gemini дешевле всех для массовой обработки, но Claude и GPT-4o лучше для задач с высокими требованиями к точности.
Создайте бесплатный аккаунт для решения челленджей
3 челленджей с AI-проверкой для этого урока
Этот урок — часть структурированного курса по LLM.
Мой путь обучения