Что такое трансферное обучение и почему оно важно для LLM?

Трансферное обучение (transfer learning) — это парадигма обучения модели на общей задаче (предсказание следующего токена на массиве текстов), а затем адаптации к конкретным задачам через дообучение или промптинг. Это устранило необходимость обучать отдельную модель для каждой задачи — одна фундаментальная модель обслуживает тысячи сценариев.

В чём разница между дообучением (fine-tuning) и промптингом?

Дообучение (fine-tuning) обновляет веса модели с помощью небольшого набора размеченных данных (тысячи примеров) для конкретной задачи. Промптинг не требует обновления весов — вы просто описываете задачу на естественном языке. Дообучение даёт более высокую точность для специализированных областей, а промптинг быстрее и гибче для общих задач.

Что такое эмерджентные способности больших языковых моделей?

Эмерджентные способности — это возможности, которые появляются только при достижении определённого масштаба модели. Например, обучение в контексте (следование инструкциям промпта без обучения) проявилось только в моделях с 100B+ параметрами, таких как GPT-3. Эти способности отсутствуют в меньших моделях и не могут быть предсказаны из кривых масштабирования.

Урок 3

Трансферное обучение

От отдельной модели на каждую задачу к одной модели для всего

Проблема: В 2015 году создание NLP-системы означало обучение модели с нуля для каждой задачи — анализ тональности, перевод, Q&A — каждая требовала своей модели и огромных размеченных датасетов. Сегодня одна модель справляется со ВСЕМИ этими задачами по текстовому промпту. Что изменилось? Трансферное обучение (transfer learning) — смена парадигмы, которая сделала LLM возможными.

Решение: Революция трансферного обучения

До 2018 года создание NLP-системы означало обучение отдельной модели для каждой задачи. Анализ тональности? Обучи модель. Перевод? Обучи другую. Q&A? Ещё одну. Каждая требовала огромных размеченных датасетов и недель вычислений. Трансферное обучение (transfer learning) изменило всё. Ключевая идея: обучить одну большую модель на общей задаче (предсказание следующего токена), используя весь интернет как обучающие данные. Эта предобученная модель усваивает грамматику, факты, логику и здравый смысл — всё без человеческой разметки. Затем её адаптируют к конкретным задачам через дообучение (fine-tuning) (небольшой размеченный датасет, обновление весов) или промптинг (просто текстовые инструкции, без обновления весов). GPT-3 продемонстрировал, что при достаточном масштабе (175B параметров) модели могут следовать инструкциям промпта без какого-либо дообучения — способность, называемая обучением в контексте (in-context learning). Именно поэтому промпт-инженерия существует как дисциплина.

Представьте это как образование. Предобучение — это школа: 12 лет общих знаний (чтение, математика, естествознание, история). Дорого, долго, но даёт фундамент для ВСЕГО. Дообучение (fine-tuning) — это курсы повышения квалификации: несколько недель специфических навыков для вашей роли. А промптинг — это инструкции на рабочем месте: начальник говорит, что делать, обучение не нужно. Выпускник вуза может сменить профессию с коротким переобучением. Модель, предобученная на интернете, может сменить задачу одним промптом:

1. Предобучение: усвой всё из интернета: Обучите большой Transformer на триллионах токенов из Common Crawl, книг, кода, Wikipedia. Задача простая: предскажи следующий токен. Никакой человеческой разметки — интернет И ЕСТЬ обучающие данные. Это стоит $10M-$100M+ и занимает месяцы на тысячах GPU. Результат: фундаментальная модель, которая "знает" грамматику, факты, логику и множество языков
2. Дообучение: специализация на малых данных: Возьмите предобученную модель и дообучите на 1000-100 000 размеченных примерах для конкретной задачи (медицинский Q&A, генерация кода, юридический анализ). Обновить нужно только "последнюю милю" знаний — фундамент языкового понимания уже есть. Это занимает часы-дни, не месяцы. Стоит $100-$10 000, не миллионы
3. Промптинг: направь текстовыми инструкциями: GPT-3 доказала, что при достаточном масштабе обновлять веса вообще не нужно. Просто опишите задачу: "Переведи на французский:" или "Суммаризуй статью в 3 пунктах." Модель использует обучение в контексте для адаптации на лету. Это мгновенно, бесплатно (кроме стоимости API) и бесконечно гибко. Именно поэтому промпт-инженерия — это навык
4. Масштаб раскрывает эмерджентные способности: Не все предобученные модели умеют обучаться в контексте. Это работает только в масштабе. Модель со 100M параметрами справляется с базовой грамматикой. На 1B — простой Q&A. На 10B — перевод и суммаризация. На 100B+ — появляются обучение в контексте, рассуждение и генерация кода. Именно поэтому "Large" в "Large Language Model" имеет значение — масштаб делает трансферное обучение по-настоящему универсальным

Трансферное обучение на практике

Почему промптинг вообще работает: Когда вы пишете промпт "Переведи на французский", вы не учите модель французскому — она уже выучила его во время предобучения на мультиязычных веб-данных. Вы направляете существующие знания на конкретную задачу. Каждая техника в нашем разделе "Техники" (Chain-of-Thought, Few-Shot, RAG) работает, потому что модель уже имеет общие способности. Техники лишь направляют их
Когда дообучать, а когда промптить: Дообучение побеждает промптинг, когда нужны: (1) специфическая терминология, которую модель не видела (медицина, юриспруденция), (2) единообразное форматирование для тысяч запросов, (3) максимальная точность на узкой задаче. Промптинг выигрывает, когда: (1) задача общего назначения, (2) нужна гибкость между задачами, (3) скорость запуска важнее предельной точности. RAG — золотая середина: дополнить промпт внешними знаниями без изменения весов
Экономика фундаментальных моделей: Предобучение GPT-4, по разным оценкам, стоило более $100M. Но эта одна модель теперь обслуживает миллионы пользователей в тысячах задач через API. Стоимость на задачу стремится к нулю. До трансферного обучения каждая компания обучала свою модель для каждой задачи — анализ тональности, перевод, суммаризация — по $50K-$500K за модель. Фундаментальные модели перевернули экономику: обучи один раз, продавай доступ вечно. Именно поэтому существует экономика API
Частая ошибка: Думать, что нужно дообучать для каждой задачи. Большинство разработчиков слишком рано берутся за дообучение. Попробуйте сначала промптинг — с техниками Chain-of-Thought, Few-Shot примерами и чёткими системными промптами современные фундаментальные модели справляются с 80-90% задач из коробки. Дообучение должно быть крайней мерой, когда промптинг стабильно не справляется, а не подходом по умолчанию

Интересный факт: GPT-3 стала первой моделью, убедительно продемонстрировавшей обучение в контексте в масштабе. С 175 миллиардами параметров она могла выполнять перевод, суммаризацию и ответы на вопросы исключительно по инструкциям промпта — без дообучения. Эта единственная демонстрация в 2020 году запустила всю область промпт-инженерии и экономику API для LLM.

Попробуйте сами!

Исследуй интерактивную визуализацию ниже: сравни старую и новую парадигмы, посмотри, как предобучение создаёт фундаментальную модель, проследи три пути адаптации и узнай, какие способности появляются на разных масштабах.

Трансферное обучение: от предобучения к промптингу

Пройди через процесс предобучения: наблюдай, как модель превращается из случайного шума в универсальный фундамент:

Случайные веса

Ничего — чистый шум

Фаза 0/4

Ключевой вывод: Человеческая разметка не нужна. Модель учится, предсказывая следующий токен — интернет И ЕСТЬ обучающие данные. Именно это делает предобучение масштабируемым.

Попробуй сам

Интерактивное демо этой техники

Сравнение техник

Демо режим

Предзаписанные ответы

ЗадачаНачинающийАнализ

Получить понятное объяснение трансферного обучения и его роли в современных LLM

Без техники

Промпт

Что такое трансферное обучение?

Ответ

Трансферное обучение — это метод машинного обучения, при котором модель, обученная на одной задаче, используется как отправная точка для другой задачи. Это позволяет переиспользовать знания и ускоряет обучение.

Токены:6/35

Время:280ms

Качество:

С fundamentals-transfer-learning

С техникой

Промпт

Объясни трансферное обучение (transfer learning), проведя через конкретный пример: как модель, предобученная на веб-текстах, становится способной диагностировать заболевания? Разбери три стратегии адаптации (дообучение, промптинг, RAG) и объясни, какая лучше подходит для медицинского сценария и почему. Используй конкретные числа: размер модели, количество примеров для дообучения, стоимость.

Ответ

От веб-текста к медицинской диагностике:

Предобучение: Llama 3 70B обучена на 15T токенах (Common Crawl, книги, код, Wikipedia). Стоимость: ~$10M. Модель уже знает: медицинскую терминологию из Wikipedia/PubMed, логику рассуждений, структуру вопрос-ответ.

Три пути адаптации для медицины:

Дообучение: 10K-50K пар (симптомы → диагноз) из клинических записей. Стоимость: ~$5K на A100. Время: 2-3 дня. Результат: точность 89-92% на специализированных бенчмарках. Плюс: наивысшая точность на узкой задаче. Минус: нужны размеченные медицинские данные, compliance.
Промптинг: "Ты опытный терапевт. Пациент жалуется на X, Y, Z. Какие 5 наиболее вероятных диагнозов?" Стоимость: $0 (только API). Время: мгновенно. Точность: 70-80%. Плюс: мгновенный запуск. Минус: нестабильное качество, нет доступа к обновлённым клиническим протоколам.
RAG: Система извлекает из базы актуальных клинических руководств (UpToDate, PubMed) релевантные статьи и добавляет в промпт. Точность: 85-90%. Плюс: всегда актуальные данные, ссылки на источники. Минус: нужна векторная БД (~$500/мес).

Рекомендация для медицины: RAG + дообучение. RAG для актуальности и верифицируемости. Дообучение для специфической терминологии и формата.

👁️Базовый промпт "что такое transfer learning" даёт учебниковое определение без практической ценности

🧠Конкретный сценарий (медицинская диагностика) + сравнение трёх путей + числа заставляют AI давать практичный, структурированный ответ

✅Результат: actionable рекомендация с конкретными числами стоимости и точности для каждого подхода

Токены:65/320

Время:1200ms

Качество:

Почему это работает

Промпт с конкретным сценарием (медицина) и запросом на сравнение трёх стратегий адаптации превращает абстрактное "что такое transfer learning" в практическое руководство с числами и рекомендацией.

1 / 2

Практика

Создайте бесплатный аккаунт для решения челленджей

3 челленджей с AI-проверкой для этого урока

Связанные уроки:Training Dynamics Fine Tuning Tokenization

Этот урок — часть структурированного курса по LLM.

Мой путь обучения

Решение: Революция трансферного обучения

Представьте это как образование. Предобучение — это школа: 12 лет общих знаний (чтение, математика, естествознание, история). Дорого, долго, но даёт фундамент для ВСЕГО. Дообучение (fine-tuning) — это курсы повышения квалификации: несколько недель специфических навыков для вашей роли. А промптинг — это инструкции на рабочем месте: начальник говорит, что делать, обучение не нужно. Выпускник вуза может сменить профессию с коротким переобучением. Модель, предобученная на интернете, может сменить задачу одним промптом:

1. Предобучение: усвой всё из интернета: Обучите большой Transformer на триллионах токенов из Common Crawl, книг, кода, Wikipedia. Задача простая: предскажи следующий токен. Никакой человеческой разметки — интернет И ЕСТЬ обучающие данные. Это стоит $10M-$100M+ и занимает месяцы на тысячах GPU. Результат: фундаментальная модель, которая "знает" грамматику, факты, логику и множество языков
2. Дообучение: специализация на малых данных: Возьмите предобученную модель и дообучите на 1000-100 000 размеченных примерах для конкретной задачи (медицинский Q&A, генерация кода, юридический анализ). Обновить нужно только "последнюю милю" знаний — фундамент языкового понимания уже есть. Это занимает часы-дни, не месяцы. Стоит $100-$10 000, не миллионы
3. Промптинг: направь текстовыми инструкциями: GPT-3 доказала, что при достаточном масштабе обновлять веса вообще не нужно. Просто опишите задачу: "Переведи на французский:" или "Суммаризуй статью в 3 пунктах." Модель использует обучение в контексте для адаптации на лету. Это мгновенно, бесплатно (кроме стоимости API) и бесконечно гибко. Именно поэтому промпт-инженерия — это навык
4. Масштаб раскрывает эмерджентные способности: Не все предобученные модели умеют обучаться в контексте. Это работает только в масштабе. Модель со 100M параметрами справляется с базовой грамматикой. На 1B — простой Q&A. На 10B — перевод и суммаризация. На 100B+ — появляются обучение в контексте, рассуждение и генерация кода. Именно поэтому "Large" в "Large Language Model" имеет значение — масштаб делает трансферное обучение по-настоящему универсальным

Трансферное обучение на практике

Почему промптинг вообще работает: Когда вы пишете промпт "Переведи на французский", вы не учите модель французскому — она уже выучила его во время предобучения на мультиязычных веб-данных. Вы направляете существующие знания на конкретную задачу. Каждая техника в нашем разделе "Техники" (Chain-of-Thought, Few-Shot, RAG) работает, потому что модель уже имеет общие способности. Техники лишь направляют их

Когда дообучать, а когда промптить: Дообучение побеждает промптинг, когда нужны: (1) специфическая терминология, которую модель не видела (медицина, юриспруденция), (2) единообразное форматирование для тысяч запросов, (3) максимальная точность на узкой задаче. Промптинг выигрывает, когда: (1) задача общего назначения, (2) нужна гибкость между задачами, (3) скорость запуска важнее предельной точности. RAG — золотая середина: дополнить промпт внешними знаниями без изменения весов

Экономика фундаментальных моделей: Предобучение GPT-4, по разным оценкам, стоило более $100M. Но эта одна модель теперь обслуживает миллионы пользователей в тысячах задач через API. Стоимость на задачу стремится к нулю. До трансферного обучения каждая компания обучала свою модель для каждой задачи — анализ тональности, перевод, суммаризация — по $50K-$500K за модель. Фундаментальные модели перевернули экономику: обучи один раз, продавай доступ вечно. Именно поэтому существует экономика API

Частая ошибка: Думать, что нужно дообучать для каждой задачи. Большинство разработчиков слишком рано берутся за дообучение. Попробуйте сначала промптинг — с техниками Chain-of-Thought, Few-Shot примерами и чёткими системными промптами современные фундаментальные модели справляются с 80-90% задач из коробки. Дообучение должно быть крайней мерой, когда промптинг стабильно не справляется, а не подходом по умолчанию

Попробуйте сами!

От веб-текста к медицинской диагностике:

Три пути адаптации для медицины:

Дообучение: 10K-50K пар (симптомы → диагноз) из клинических записей. Стоимость: ~$5K на A100. Время: 2-3 дня. Результат: точность 89-92% на специализированных бенчмарках. Плюс: наивысшая точность на узкой задаче. Минус: нужны размеченные медицинские данные, compliance.
Промптинг: "Ты опытный терапевт. Пациент жалуется на X, Y, Z. Какие 5 наиболее вероятных диагнозов?" Стоимость: $0 (только API). Время: мгновенно. Точность: 70-80%. Плюс: мгновенный запуск. Минус: нестабильное качество, нет доступа к обновлённым клиническим протоколам.
RAG: Система извлекает из базы актуальных клинических руководств (UpToDate, PubMed) релевантные статьи и добавляет в промпт. Точность: 85-90%. Плюс: всегда актуальные данные, ссылки на источники. Минус: нужна векторная БД (~$500/мес).