Open-Source модели

Сравни open-weight LLM: Llama 4, Qwen 3, DeepSeek V3/R1, Mistral. MoE архитектура, лицензии, требования к GPU

Проблема: Вы хотите использовать LLM, но не можете отправлять данные во внешние API из-за требований приватности, вам нужен кастомный fine-tuning или вы хотите избежать платы за токен при масштабе. Какие open-source модели существуют и как они сравниваются?

Решение: Выбери правильную открытую модель

Open-source (или open-weight) LLM — это модели, чьи веса публично доступны для скачивания, self-hosting и часто fine-tuning. В отличие от закрытых моделей (GPT-5, Claude), где доступен только API, открытые модели дают полный контроль: запуск на своём железе, модификация под свою область, нет платы за токен. Компромисс: вы управляете инфраструктурой и обычно получаете чуть более низкую производительность на самых сложных задачах.

Представьте это как покупка автомобиля vs сборка своего — закрытые модели готовы к поездке, открытые позволяют настроить всё под капотом:

1. Определи ограничения: Бюджет GPU (7B работает на ноутбуке, 70B нужен multi-GPU, 400B+ — кластер), требования к задержке и ограничения лицензий
2. Сопоставь модель с задачей: Код → Qwen 3 / DeepSeek V3. Мультиязычность → Qwen 3 (119 языков). Reasoning → DeepSeek R1. Общие задачи → Llama 4. EU compliance → Mistral
3. Учти квантизацию: GPTQ/AWQ/GGUF квантизация позволяет запустить 70B модели на потребительских GPU с минимальной потерей качества (Q4 = ~4x уменьшение памяти)
4. Оцени на СВОИХ данных: Бенчмарки показывают общие тенденции, но ваша область может отличаться. Протестируй 50-100 реальных примеров из вашего use case перед инвестицией в инфраструктуру

Когда использовать открытые модели

Приватность данных: Self-hosted модели хранят данные на ваших серверах — критично для медицины, финансов, юриспруденции и госсектора. Данные не покидают вашу инфраструктуру
Стоимость при масштабе: При 1M+ запросов/день self-hosting становится дешевле API. DeepSeek V3 MoE использует лишь 37B активных параметров из 671B — стоимость инференса малой модели, знания огромной
Fine-tuning и кастомизация: Открытые модели можно дообучить на данных вашей области (медицина, юриспруденция, код). Закрытые модели предлагают ограниченный fine-tuning или вообще его не имеют
Лицензии важны: MIT (DeepSeek R1) = без ограничений. Apache 2.0 (Mistral) = разрешительная. Llama = кастомная лицензия с ограничениями. Всегда проверяйте перед продакшн-использованием

Интересный факт: DeepSeek V3 имеет 671 миллиард параметров, но благодаря Mixture of Experts (MoE) только 37 миллиардов активируются на каждый токен. Это означает стоимость инференса как у 37B модели, но объём знаний 671B модели — 18-кратный выигрыш в эффективности.

Попробуйте сами!

Сравни open-source модели интерактивно ниже, чтобы найти подходящую для твоего use case.

Open-weight vs Open-source

Open-weight: веса модели доступны для скачивания (Llama, DeepSeek). Open-source: доступен также код обучения и данные. Большинство «open-source» моделей на самом деле open-weight — код обучения обычно закрыт.

Инфраструктура для запуска

•7B модели: RTX 4090 (24GB) — квантизация Q4
•70B модели: A100 80GB или 2x RTX 4090 (Q4)
•400B+ MoE: кластер из 4-8x A100/H100
•Инструменты: vLLM, TGI, llama.cpp, Ollama

MoE — Mixture of Experts

Архитектура MoE использует только часть параметров на каждый токен. DeepSeek V3: 671B всего, но 37B активных. Qwen 3: 1T+ всего, но ~80B активных. Это даёт знания большой модели при стоимости малой.

Ключевые игроки

•Meta (Llama 4) — контекст 10M, MoE, кастомная лицензия
•Alibaba (Qwen 3) — 119 языков, лучший в математике, Apache 2.0
•DeepSeek (V3, R1) — MIT лицензия, MoE, reasoning
•Mistral (Large 3) — EU-based, Apache 2.0, enterprise

Сравнение open-source моделей

Практика

Создайте бесплатный аккаунт для решения челленджей

3 челленджей с AI-проверкой для этого урока

Связанные уроки:Quantization Fine Tuning Model Selection

Этот урок — часть структурированного курса по LLM.

Мой путь обучения