Open-Source модели
Сравни open-weight LLM: Llama 4, Qwen 3, DeepSeek V3/R1, Mistral. MoE архитектура, лицензии, требования к GPU
Проблема: Вы хотите использовать LLM, но не можете отправлять данные во внешние API из-за требований приватности, вам нужен кастомный fine-tuning или вы хотите избежать платы за токен при масштабе. Какие open-source модели существуют и как они сравниваются?
Решение: Выбери правильную открытую модель
Open-source (или open-weight) LLM — это модели, чьи веса публично доступны для скачивания, self-hosting и часто fine-tuning. В отличие от закрытых моделей (GPT-5, Claude), где доступен только API, открытые модели дают полный контроль: запуск на своём железе, модификация под свою область, нет платы за токен. Компромисс: вы управляете инфраструктурой и обычно получаете чуть более низкую производительность на самых сложных задачах.
Представьте это как покупка автомобиля vs сборка своего — закрытые модели готовы к поездке, открытые позволяют настроить всё под капотом:
- 1. Определи ограничения: Бюджет GPU (7B работает на ноутбуке, 70B нужен multi-GPU, 400B+ — кластер), требования к задержке и ограничения лицензий
- 2. Сопоставь модель с задачей: Код → Qwen 3 / DeepSeek V3. Мультиязычность → Qwen 3 (119 языков). Reasoning → DeepSeek R1. Общие задачи → Llama 4. EU compliance → Mistral
- 3. Учти квантизацию: GPTQ/AWQ/GGUF квантизация позволяет запустить 70B модели на потребительских GPU с минимальной потерей качества (Q4 = ~4x уменьшение памяти)
- 4. Оцени на СВОИХ данных: Бенчмарки показывают общие тенденции, но ваша область может отличаться. Протестируй 50-100 реальных примеров из вашего use case перед инвестицией в инфраструктуру
Когда использовать открытые модели
- Приватность данных: Self-hosted модели хранят данные на ваших серверах — критично для медицины, финансов, юриспруденции и госсектора. Данные не покидают вашу инфраструктуру
- Стоимость при масштабе: При 1M+ запросов/день self-hosting становится дешевле API. DeepSeek V3 MoE использует лишь 37B активных параметров из 671B — стоимость инференса малой модели, знания огромной
- Fine-tuning и кастомизация: Открытые модели можно дообучить на данных вашей области (медицина, юриспруденция, код). Закрытые модели предлагают ограниченный fine-tuning или вообще его не имеют
- Лицензии важны: MIT (DeepSeek R1) = без ограничений. Apache 2.0 (Mistral) = разрешительная. Llama = кастомная лицензия с ограничениями. Всегда проверяйте перед продакшн-использованием
Интересный факт: DeepSeek V3 имеет 671 миллиард параметров, но благодаря Mixture of Experts (MoE) только 37 миллиардов активируются на каждый токен. Это означает стоимость инференса как у 37B модели, но объём знаний 671B модели — 18-кратный выигрыш в эффективности.
Попробуйте сами!
Сравни open-source модели интерактивно ниже, чтобы найти подходящую для твоего use case.
Open-weight: веса модели доступны для скачивания (Llama, DeepSeek). Open-source: доступен также код обучения и данные. Большинство «open-source» моделей на самом деле open-weight — код обучения обычно закрыт.
- •7B модели: RTX 4090 (24GB) — квантизация Q4
- •70B модели: A100 80GB или 2x RTX 4090 (Q4)
- •400B+ MoE: кластер из 4-8x A100/H100
- •Инструменты: vLLM, TGI, llama.cpp, Ollama
Архитектура MoE использует только часть параметров на каждый токен. DeepSeek V3: 671B всего, но 37B активных. Qwen 3: 1T+ всего, но ~80B активных. Это даёт знания большой модели при стоимости малой.
- •Meta (Llama 4) — контекст 10M, MoE, кастомная лицензия
- •Alibaba (Qwen 3) — 119 языков, лучший в математике, Apache 2.0
- •DeepSeek (V3, R1) — MIT лицензия, MoE, reasoning
- •Mistral (Large 3) — EU-based, Apache 2.0, enterprise
Создайте бесплатный аккаунт для решения челленджей
3 челленджей с AI-проверкой для этого урока
Этот урок — часть структурированного курса по LLM.
Мой путь обучения