ПродакшенEdge AI

Малые языковые модели

Компактные модели для быстрого, приватного и дешёвого AI

📖 Аналогия

Большая языковая модель — как симфонический оркестр: мощный, но дорогой и долго собирается. Малая модель — как талантливый сольный музыкант: не сыграет всё, но для подходящего произведения — быстрее, дешевле и звучит не хуже.

Ключевые концепции

Малые языковые модели (< 7B параметров)

Модели типа Phi-4 (14B), Gemma 2 (2B/9B), Qwen2.5 (0.5B-7B) и TinyLlama (1.1B). Созданы для эффективности: меньше параметров, но обучены на качественных данных с техниками дистилляции.

✅ В 10-100 раз дешевле, в 5-20 раз меньше задержка, работает на обычном железе, полная приватность данных

⚠️ Слабее в сложных рассуждениях, ограниченные контекстные окна, хуже мультиязычность

Квантизация (INT8/INT4/GGUF)

Снижение точности модели с FP16 до INT8 или INT4 для уменьшения размера в 2-4 раза с минимальной потерей качества. Формат GGUF позволяет инференс на CPU через llama.cpp.

✅ Модели в 4 раза меньше, работают на CPU/мобильных, почти исходное качество на INT8

⚠️ INT4 может терять качество на edge-кейсах, не все архитектуры хорошо квантизируются

Когда использовать SLM

Критичные к задержке приложения

Автодополнение, чат в реальном времени, подсказки кода — где время отклика 50мс важнее пиковой интеллектуальности

Чувствительные к приватности системы

Здравоохранение, юриспруденция, финансы — когда данные не могут покидать устройство или локальную сеть

Массовые задачи низкой сложности

Классификация, извлечение сущностей, анализ тональности — где 3B модель сравнима с GPT-4 при 1% стоимости

Оффлайн и edge-сценарии

Мобильные приложения, IoT-устройства, встраиваемые системы — где интернет-соединение ненадёжно или отсутствует

⚠️ Частая ошибка

Не считайте, что больше — всегда лучше. Хорошо квантизированная Phi-4 Mini (3.8B) обгоняет GPT-3.5 на многих бенчмарках, работая на CPU ноутбука. Но не используйте SLM для задач, реально требующих большого контекста или многошагового рассуждения — там LLM всё ещё выигрывают.

Пошаговый подход

Оцените сложность задачи

Прогоните реальную нагрузку на большой и малой модели. Если малая достигает >90% качества — это сильный кандидат для SLM.

Выберите размер модели

0.5-1B для простой классификации, 2-3B для саммаризации и извлечения, 7-14B для кодинга и рассуждений. Сопоставьте параметры со сложностью задачи.

Квантизируйте под ваше железо

INT8 для GPU-инференса (минимальная потеря качества), INT4/GGUF для CPU/мобильных. Инструменты: llama.cpp, ONNX Runtime, MLX (Apple Silicon).

Бенчмаркайте на СВОИХ данных

Общие бенчмарки обманывают. Тестируйте на реальных промптах и измеряйте задержку, использование памяти и качество вывода. Соберите eval-набор из 50-100 примеров.

💡 Интересный факт

Phi-4 Mini от Microsoft (3.8B параметров) превосходит многие модели с 70B на бенчмарках по математике и рассуждениям. Секрет? Обучение на синтетических данных учебникового качества вместо сырого текста из интернета. Качество обучающих данных важнее размера модели.

Квантизация:

GPT-4o~1.8TOpenAI

Облако

Задержка

800ms

Цена/1M токенов

$5.00

Качество

Лучше всего для: Сложные рассуждения, код, анализ

Claude Sonnet~70BAnthropic

Облако

Задержка

600ms

Цена/1M токенов

$3.00

Качество

Лучше всего для: Длинные документы, тонкие тексты

Phi-4 Mini3.8BMicrosoft

RAM: 3.8 GB

Задержка

45ms

Цена/1M токенов

$0.04

Качество

Лучше всего для: Математика, рассуждения, код на устройстве

Gemma 22.6BGoogle

RAM: 2.6 GB

Задержка

35ms

Цена/1M токенов

$0.03

Качество

Лучше всего для: Генерация текста, саммаризация

Qwen2.57BAlibaba

RAM: 7 GB

Задержка

80ms

Цена/1M токенов

$0.07

Качество

Лучше всего для: Мультиязычность, код, чат

TinyLlama1.1BOpen Source

RAM: 1.1 GB

Задержка

20ms

Цена/1M токенов

$0.01

Качество

Лучше всего для: Простая классификация, edge IoT

Практика

Создайте бесплатный аккаунт для решения челленджей

3 челленджей с AI-проверкой для этого урока

Связанные уроки:Model Selection Cost Optimization Quantization

Этот урок — часть структурированного курса по LLM.

Мой путь обучения

ПродакшенEdge AI

Малые языковые модели

Компактные модели для быстрого, приватного и дешёвого AI

📖 Аналогия

Ключевые концепции

Малые языковые модели (< 7B параметров)

✅ В 10-100 раз дешевле, в 5-20 раз меньше задержка, работает на обычном железе, полная приватность данных

⚠️ Слабее в сложных рассуждениях, ограниченные контекстные окна, хуже мультиязычность

Квантизация (INT8/INT4/GGUF)

✅ Модели в 4 раза меньше, работают на CPU/мобильных, почти исходное качество на INT8

⚠️ INT4 может терять качество на edge-кейсах, не все архитектуры хорошо квантизируются

Когда использовать SLM

Критичные к задержке приложения

Чувствительные к приватности системы

Здравоохранение, юриспруденция, финансы — когда данные не могут покидать устройство или локальную сеть

Массовые задачи низкой сложности

Классификация, извлечение сущностей, анализ тональности — где 3B модель сравнима с GPT-4 при 1% стоимости

Оффлайн и edge-сценарии

⚠️ Частая ошибка

Пошаговый подход

Оцените сложность задачи

Выберите размер модели

Квантизируйте под ваше железо

Бенчмаркайте на СВОИХ данных

💡 Интересный факт

Квантизация:

GPT-4o~1.8TOpenAI

Облако

Задержка

800ms

Цена/1M токенов

$5.00

Качество

Лучше всего для: Сложные рассуждения, код, анализ

Claude Sonnet~70BAnthropic

Облако

Задержка

600ms

Цена/1M токенов

$3.00

Качество

Лучше всего для: Длинные документы, тонкие тексты

Phi-4 Mini3.8BMicrosoft

RAM: 3.8 GB

Задержка

45ms

Цена/1M токенов

$0.04

Качество

Лучше всего для: Математика, рассуждения, код на устройстве

Gemma 22.6BGoogle

RAM: 2.6 GB

Задержка

35ms

Цена/1M токенов

$0.03

Качество

Лучше всего для: Генерация текста, саммаризация

Qwen2.57BAlibaba

RAM: 7 GB

Задержка

80ms

Цена/1M токенов

$0.07

Качество

Лучше всего для: Мультиязычность, код, чат

TinyLlama1.1BOpen Source

RAM: 1.1 GB

Задержка

20ms

Цена/1M токенов

$0.01

Качество

Лучше всего для: Простая классификация, edge IoT

Практика

Создайте бесплатный аккаунт для решения челленджей

3 челленджей с AI-проверкой для этого урока

Связанные уроки:Model Selection Cost Optimization Quantization

Этот урок — часть структурированного курса по LLM.

Мой путь обучения