Трансферное обучение
От отдельной модели на каждую задачу к одной модели для всего
Проблема: В 2015 году создание NLP-системы означало обучение модели с нуля для каждой задачи — анализ тональности, перевод, Q&A — каждая требовала своей модели и огромных размеченных датасетов. Сегодня одна модель справляется со ВСЕМИ этими задачами по текстовому промпту. Что изменилось? Трансферное обучение (transfer learning) — смена парадигмы, которая сделала LLM возможными.
Решение: Революция трансферного обучения
До 2018 года создание NLP-системы означало обучение отдельной модели для каждой задачи. Анализ тональности? Обучи модель. Перевод? Обучи другую. Q&A? Ещё одну. Каждая требовала огромных размеченных датасетов и недель вычислений. Трансферное обучение (transfer learning) изменило всё. Ключевая идея: обучить одну большую модель на общей задаче (предсказание следующего токена), используя весь интернет как обучающие данные. Эта предобученная модель усваивает грамматику, факты, логику и здравый смысл — всё без человеческой разметки. Затем её адаптируют к конкретным задачам через дообучение (fine-tuning) (небольшой размеченный датасет, обновление весов) или промптинг (просто текстовые инструкции, без обновления весов). GPT-3 продемонстрировал, что при достаточном масштабе (175B параметров) модели могут следовать инструкциям промпта без какого-либо дообучения — способность, называемая обучением в контексте (in-context learning). Именно поэтому промпт-инженерия существует как дисциплина.
Представьте это как образование. Предобучение — это школа: 12 лет общих знаний (чтение, математика, естествознание, история). Дорого, долго, но даёт фундамент для ВСЕГО. Дообучение (fine-tuning) — это курсы повышения квалификации: несколько недель специфических навыков для вашей роли. А промптинг — это инструкции на рабочем месте: начальник говорит, что делать, обучение не нужно. Выпускник вуза может сменить профессию с коротким переобучением. Модель, предобученная на интернете, может сменить задачу одним промптом:
- 1. Предобучение: усвой всё из интернета: Обучите большой Transformer на триллионах токенов из Common Crawl, книг, кода, Wikipedia. Задача простая: предскажи следующий токен. Никакой человеческой разметки — интернет И ЕСТЬ обучающие данные. Это стоит $10M-$100M+ и занимает месяцы на тысячах GPU. Результат: фундаментальная модель, которая "знает" грамматику, факты, логику и множество языков
- 2. Дообучение: специализация на малых данных: Возьмите предобученную модель и дообучите на 1000-100 000 размеченных примерах для конкретной задачи (медицинский Q&A, генерация кода, юридический анализ). Обновить нужно только "последнюю милю" знаний — фундамент языкового понимания уже есть. Это занимает часы-дни, не месяцы. Стоит $100-$10 000, не миллионы
- 3. Промптинг: направь текстовыми инструкциями: GPT-3 доказала, что при достаточном масштабе обновлять веса вообще не нужно. Просто опишите задачу: "Переведи на французский:" или "Суммаризуй статью в 3 пунктах." Модель использует обучение в контексте для адаптации на лету. Это мгновенно, бесплатно (кроме стоимости API) и бесконечно гибко. Именно поэтому промпт-инженерия — это навык
- 4. Масштаб раскрывает эмерджентные способности: Не все предобученные модели умеют обучаться в контексте. Это работает только в масштабе. Модель со 100M параметрами справляется с базовой грамматикой. На 1B — простой Q&A. На 10B — перевод и суммаризация. На 100B+ — появляются обучение в контексте, рассуждение и генерация кода. Именно поэтому "Large" в "Large Language Model" имеет значение — масштаб делает трансферное обучение по-настоящему универсальным
Трансферное обучение на практике
- Почему промптинг вообще работает: Когда вы пишете промпт "Переведи на французский", вы не учите модель французскому — она уже выучила его во время предобучения на мультиязычных веб-данных. Вы направляете существующие знания на конкретную задачу. Каждая техника в нашем разделе "Техники" (Chain-of-Thought, Few-Shot, RAG) работает, потому что модель уже имеет общие способности. Техники лишь направляют их
- Когда дообучать, а когда промптить: Дообучение побеждает промптинг, когда нужны: (1) специфическая терминология, которую модель не видела (медицина, юриспруденция), (2) единообразное форматирование для тысяч запросов, (3) максимальная точность на узкой задаче. Промптинг выигрывает, когда: (1) задача общего назначения, (2) нужна гибкость между задачами, (3) скорость запуска важнее предельной точности. RAG — золотая середина: дополнить промпт внешними знаниями без изменения весов
- Экономика фундаментальных моделей: Предобучение GPT-4, по разным оценкам, стоило более $100M. Но эта одна модель теперь обслуживает миллионы пользователей в тысячах задач через API. Стоимость на задачу стремится к нулю. До трансферного обучения каждая компания обучала свою модель для каждой задачи — анализ тональности, перевод, суммаризация — по $50K-$500K за модель. Фундаментальные модели перевернули экономику: обучи один раз, продавай доступ вечно. Именно поэтому существует экономика API
- Частая ошибка: Думать, что нужно дообучать для каждой задачи. Большинство разработчиков слишком рано берутся за дообучение. Попробуйте сначала промптинг — с техниками Chain-of-Thought, Few-Shot примерами и чёткими системными промптами современные фундаментальные модели справляются с 80-90% задач из коробки. Дообучение должно быть крайней мерой, когда промптинг стабильно не справляется, а не подходом по умолчанию
Интересный факт: GPT-3 стала первой моделью, убедительно продемонстрировавшей обучение в контексте в масштабе. С 175 миллиардами параметров она могла выполнять перевод, суммаризацию и ответы на вопросы исключительно по инструкциям промпта — без дообучения. Эта единственная демонстрация в 2020 году запустила всю область промпт-инженерии и экономику API для LLM.
Попробуйте сами!
Исследуй интерактивную визуализацию ниже: сравни старую и новую парадигмы, посмотри, как предобучение создаёт фундаментальную модель, проследи три пути адаптации и узнай, какие способности появляются на разных масштабах.
Пройди через процесс предобучения: наблюдай, как модель превращается из случайного шума в универсальный фундамент:
Случайные веса
Ничего — чистый шум
Ключевой вывод: Человеческая разметка не нужна. Модель учится, предсказывая следующий токен — интернет И ЕСТЬ обучающие данные. Именно это делает предобучение масштабируемым.
Попробуй сам
Интерактивное демо этой техники
Получить понятное объяснение трансферного обучения и его роли в современных LLM
Трансферное обучение — это метод машинного обучения, при котором модель, обученная на одной задаче, используется как отправная точка для другой задачи. Это позволяет переиспользовать знания и ускоряет обучение.
От веб-текста к медицинской диагностике:
Предобучение: Llama 3 70B обучена на 15T токенах (Common Crawl, книги, код, Wikipedia). Стоимость: ~$10M. Модель уже знает: медицинскую терминологию из Wikipedia/PubMed, логику рассуждений, структуру вопрос-ответ.
Три пути адаптации для медицины:
-
Дообучение: 10K-50K пар (симптомы → диагноз) из клинических записей. Стоимость: ~$5K на A100. Время: 2-3 дня. Результат: точность 89-92% на специализированных бенчмарках. Плюс: наивысшая точность на узкой задаче. Минус: нужны размеченные медицинские данные, compliance.
-
Промптинг: "Ты опытный терапевт. Пациент жалуется на X, Y, Z. Какие 5 наиболее вероятных диагнозов?" Стоимость: $0 (только API). Время: мгновенно. Точность: 70-80%. Плюс: мгновенный запуск. Минус: нестабильное качество, нет доступа к обновлённым клиническим протоколам.
-
RAG: Система извлекает из базы актуальных клинических руководств (UpToDate, PubMed) релевантные статьи и добавляет в промпт. Точность: 85-90%. Плюс: всегда актуальные данные, ссылки на источники. Минус: нужна векторная БД (~$500/мес).
Рекомендация для медицины: RAG + дообучение. RAG для актуальности и верифицируемости. Дообучение для специфической терминологии и формата.
Промпт с конкретным сценарием (медицина) и запросом на сравнение трёх стратегий адаптации превращает абстрактное "что такое transfer learning" в практическое руководство с числами и рекомендацией.
Создайте бесплатный аккаунт для решения челленджей
3 челленджей с AI-проверкой для этого урока
Этот урок — часть структурированного курса по LLM.
Мой путь обучения