Малые языковые модели
Компактные модели для быстрого, приватного и дешёвого AI
📖 Аналогия
Большая языковая модель — как симфонический оркестр: мощный, но дорогой и долго собирается. Малая модель — как талантливый сольный музыкант: не сыграет всё, но для подходящего произведения — быстрее, дешевле и звучит не хуже.
Ключевые концепции
Малые языковые модели (< 7B параметров)
Модели типа Phi-4 (14B), Gemma 2 (2B/9B), Qwen2.5 (0.5B-7B) и TinyLlama (1.1B). Созданы для эффективности: меньше параметров, но обучены на качественных данных с техниками дистилляции.
✅ В 10-100 раз дешевле, в 5-20 раз меньше задержка, работает на обычном железе, полная приватность данных
⚠️ Слабее в сложных рассуждениях, ограниченные контекстные окна, хуже мультиязычность
Квантизация (INT8/INT4/GGUF)
Снижение точности модели с FP16 до INT8 или INT4 для уменьшения размера в 2-4 раза с минимальной потерей качества. Формат GGUF позволяет инференс на CPU через llama.cpp.
✅ Модели в 4 раза меньше, работают на CPU/мобильных, почти исходное качество на INT8
⚠️ INT4 может терять качество на edge-кейсах, не все архитектуры хорошо квантизируются
Когда использовать SLM
Критичные к задержке приложения
Автодополнение, чат в реальном времени, подсказки кода — где время отклика 50мс важнее пиковой интеллектуальности
Чувствительные к приватности системы
Здравоохранение, юриспруденция, финансы — когда данные не могут покидать устройство или локальную сеть
Массовые задачи низкой сложности
Классификация, извлечение сущностей, анализ тональности — где 3B модель сравнима с GPT-4 при 1% стоимости
Оффлайн и edge-сценарии
Мобильные приложения, IoT-устройства, встраиваемые системы — где интернет-соединение ненадёжно или отсутствует
⚠️ Частая ошибка
Не считайте, что больше — всегда лучше. Хорошо квантизированная Phi-4 Mini (3.8B) обгоняет GPT-3.5 на многих бенчмарках, работая на CPU ноутбука. Но не используйте SLM для задач, реально требующих большого контекста или многошагового рассуждения — там LLM всё ещё выигрывают.
Пошаговый подход
Оцените сложность задачи
Прогоните реальную нагрузку на большой и малой модели. Если малая достигает >90% качества — это сильный кандидат для SLM.
Выберите размер модели
0.5-1B для простой классификации, 2-3B для саммаризации и извлечения, 7-14B для кодинга и рассуждений. Сопоставьте параметры со сложностью задачи.
Квантизируйте под ваше железо
INT8 для GPU-инференса (минимальная потеря качества), INT4/GGUF для CPU/мобильных. Инструменты: llama.cpp, ONNX Runtime, MLX (Apple Silicon).
Бенчмаркайте на СВОИХ данных
Общие бенчмарки обманывают. Тестируйте на реальных промптах и измеряйте задержку, использование памяти и качество вывода. Соберите eval-набор из 50-100 примеров.
💡 Интересный факт
Phi-4 Mini от Microsoft (3.8B параметров) превосходит многие модели с 70B на бенчмарках по математике и рассуждениям. Секрет? Обучение на синтетических данных учебникового качества вместо сырого текста из интернета. Качество обучающих данных важнее размера модели.
800ms
$5.00
Лучше всего для: Сложные рассуждения, код, анализ
600ms
$3.00
Лучше всего для: Длинные документы, тонкие тексты
45ms
$0.04
Лучше всего для: Математика, рассуждения, код на устройстве
35ms
$0.03
Лучше всего для: Генерация текста, саммаризация
80ms
$0.07
Лучше всего для: Мультиязычность, код, чат
20ms
$0.01
Лучше всего для: Простая классификация, edge IoT
Создайте бесплатный аккаунт для решения челленджей
3 челленджей с AI-проверкой для этого урока
Этот урок — часть структурированного курса по LLM.
Мой путь обучения