Что такое большие языковые модели (LLM)?

LLM — это AI-системы, обученные на огромных объёмах текстовых данных, способные генерировать, понимать и рассуждать о человеческом языке. Примеры: GPT-4, Claude, Llama.

Когда появились LLM?

Основы были заложены в 2017 году с архитектурой Transformer. GPT-1 (2018) была одной из первых генеративных предобученных моделей, но прорывным моментом стали GPT-3 в 2020 и ChatGPT в 2022.

Какой ключевой прорыв сделал возможными современные LLM?

Архитектура Transformer из статьи 2017 года «Attention Is All You Need» заменила последовательную обработку (RNN/LSTM) параллельным self-attention, что позволило обучаться на массивных датасетах.

Как изменились LLM от GPT-1 до GPT-4?

От 117M параметров (GPT-1, 2018) до ~1.8 триллиона (GPT-4, 2023) — рост в 15 000 раз. Помимо размера, модели обрели мультимодальность, способности к рассуждению и следование инструкциям через RLHF.

Эволюция LLM: от правил до GPT-4

Рождение искусственного разума

1943 – 1969

Мечта о мыслящих машинах старше самих компьютеров. В 1943 году Уоррен Маккаллок и Уолтер Питтс опубликовали «A Logical Calculus of Ideas Immanent in Nervous Activity» — первую математическую модель нейрона. Их искусственный нейрон был бинарным: мог активироваться или нет, ничего промежуточного. Он не умел учиться. Но доказал нечто фундаментальное: нейронные вычисления математически возможны. Машина, в принципе, могла имитировать логику мозга.

Четырнадцать лет спустя Фрэнк Розенблатт (Rosenblatt) построил Mark I Perceptron в Корнелле — первую машину, способную учиться на данных. Военно-морские силы США финансировали проект. New York Times вышла с восторженным заголовком: «зародыш электронного компьютера, который сможет ходить, говорить, видеть, писать, воспроизводить себя и осознавать своё существование». Перцептрон мог классифицировать простые визуальные образы, корректируя веса соединений в процессе обучения. Примитивный, но он учился.

В 1966 году Джозеф Вейценбаум (Weizenbaum) в MIT создал ELIZA — первого чатбота. ELIZA имитировала психотерапевта, используя простое сопоставление шаблонов: когда пользователь говорил «Мне грустно», ELIZA отвечала «Расскажите подробнее, почему вам грустно». Нулевое понимание смысла. И всё же люди были поражены тем, как легко их обмануть — некоторые настаивали, что ELIZA действительно их понимает, даже после объяснений Вейценбаума. Он был в ужасе. Он назвал это эффектом ELIZA: склонность людей приписывать интеллект машинам, имитирующим человеческие паттерны. Этот эффект жив и сегодня в эпоху современных чатботов.

А потом случился крах. В 1969 году Марвин Минский и Сеймур Паперт (Minsky & Papert) опубликовали «Perceptrons» — строгое математическое доказательство того, что однослойные перцептроны не могут решать нелинейные задачи. Самый известный пример — проблема XOR: перцептрон просто не мог выучить функцию исключающего-или, потому что одной прямой невозможно разделить два класса. Книга была разрушительной. Финансирование иссякло практически мгновенно. Исследователи бросили нейросети. Началась первая зима AI.

Урок

Прогресс AI всегда был циклическим. Хайп → разочарование → тихий прогресс → прорыв. Понимание этого цикла — ключ к пониманию того, где мы находимся сегодня.

От нейрона к перцептрону

Исследуйте эволюцию первой обучаемой машины.

Нейрон Маккаллока-Питтса (1943): фиксированные веса, бинарный выход. Мог вычислять логические вентили (AND, OR), но НЕ мог учиться — веса задавались вручную.

Зимы AI и скрытый прогресс

1970 – 2005

Первая зима AI (1974–1980) была жестокой. В 1973 году британское правительство заказало Доклад Лайтхилла, который заключил, что исследования AI фундаментально ошибочны — обещания были дико завышены, а проблема комбинаторного взрыва делала общий AI невозможным при существующих подходах. DARPA урезало финансирование. Университеты закрыли AI-лаборатории. Исследователи перестали использовать термин «искусственный интеллект» в грантовых заявках, чтобы избежать мгновенного отказа. Нейронные сети считались тупиком.

Но в тени закладывались семена будущего. В 1986 году Дэвид Румельхарт, Джеффри Хинтон и Рональд Уильямс опубликовали современную формулировку обратного распространения ошибки (backpropagation) — алгоритма для обучения нейросетей с множеством слоёв. Распространяя сигналы ошибки в обратном направлении по сети, каждое соединение могло научиться корректировать свой вес. Проблема XOR? Решена. Многослойные сети могли выучивать нелинейные границы. Этот алгоритм используется по сей день для обучения каждой LLM.

Три года спустя Янн Лекун (Yann LeCun) применил backpropagation к свёрточным нейронным сетям (CNN) для распознавания рукописных цифр. AT&T внедрила его систему для чтения почтовых индексов — первое реальное приложение нейросетей, обрабатывающее миллионы конвертов. Оно работало тихо, надёжно, без лишнего шума.

Вторая зима AI (1987–1993) наступила, когда рухнул бум экспертных систем. Компании вложили миллионы в AI-системы на основе правил, которые оказались хрупкими и невозможными для поддержки. Амбициозный японский проект «Пятое поколение компьютеров», ставка в $400 миллионов на логическое программирование, не оправдал ожиданий. AI снова стал грязным словом в заявках на финансирование.

Но тихая работа продолжалась. В 1997 году Зепп Хохрайтер и Юрген Шмидхубер изобрели сети долгой краткосрочной памяти (LSTM), решив проблему затухающих градиентов, которая мучила рекуррентные сети. LSTM могли запоминать информацию на длинных последовательностях — критически важная способность для обработки языка. Они будут доминировать в NLP следующие двадцать лет, пока Transformer не заменил их.

Также в 1997 году Deep Blue от IBM победил чемпиона мира по шахматам Гарри Каспарова. Мир был поражён. Но это был перебор вариантов, а не обучение — Deep Blue оценивал 200 миллионов позиций в секунду с помощью вручную созданных оценочных функций. Он не мог учиться на своих партиях, не мог играть в шашки и никак не продвинул общий AI. Это была культурная веха, а не научная.

Тем временем статистические методы формировали ландшафт NLP. N-граммы считали последовательности слов, TF-IDF взвешивал важные термины, а Bag-of-Words полностью игнорировал порядок слов. Эти подходы обеспечили работу ранних поисковых систем и спам-фильтров — полезно, но фундаментально ограниченно. Компьютеры обрабатывали язык как символы, а не смысл. 60 лет NLP означал ручное создание признаков. Каждая новая задача требовала новых правил. Этот подход упёрся в потолок — язык был слишком сложен для явных правил.

Скрытый фундамент

Во время зим тихо строился фундамент современного AI. Backpropagation, CNN и LSTM — всё изобретённое во время «зим AI» — прямые предки сегодняшних LLM. Урок: настоящий прогресс часто происходит, когда никто не смотрит.

Циклы хайпа AI

Нажмите на вехи, чтобы узнать больше. Светящиеся точки — прорывы во время зим AI.

ВехаОткрыто во время зимы AI

Зажигание глубокого обучения

2006 – 2016

В 2006 году Джеффри Хинтон показал, что глубокие нейронные сети можно эффективно обучать, используя послойное предобучение с помощью Deep Belief Networks. Родился термин «глубокое обучение» (deep learning). После десятилетий зимы это была первая трещина в стене — доказательство того, что глубина не просто возможна, а полезна. Исследовательский мир обратил внимание, хотя и осторожно.

Затем наступил 2012 — ПОВОРОТНЫЙ момент. Глубокая CNN Алекса Крижевского, AlexNet, обученная на GPU от NVIDIA, вышла на соревнование ImageNet Large Scale Visual Recognition Challenge. Результат был беспрецедентным: 15.3% ошибок против 26.2% у ближайшего конкурента. Это не было постепенным улучшением — это была пропасть. Вся область компьютерного зрения переключилась на глубокое обучение в одночасье. GPU, ранее использовавшиеся только для видеоигр, стали новой нефтью AI. Все крупные технологические компании бросились строить GPU-кластеры.

В 2013 году Томас Миколов из Google опубликовал Word2Vec — и для языка всё изменилось. Впервые слова стали векторами в непрерывном пространстве, где математические операции отражали смысл: king - man + woman ≈ queen. Слова с похожим значением автоматически группировались. Это было зерно современного понимания языка — идея о том, что смысл может быть геометрией в многомерном пространстве.

Рекуррентные нейросети (RNN) стали архитектурой выбора для задач с последовательностями. Они обрабатывали текст токен за токеном, сохраняя скрытое состояние — форму памяти. Но у них был фатальный недостаток: затухающие градиенты. К моменту, когда RNN достигала конца длинного предложения, она забывала начало. Сети LSTM и GRU добавили механизмы ворот — ворота забывания, ввода и вывода, которые контролировали поток информации, резко улучшив память для последовательностей средней длины.

В 2014 году Иэн Гудфеллоу изобрёл генеративно-состязательные сети (GAN) — две нейросети, конкурирующие друг с другом: одна генерирует изображения, другая пытается отличить подделки. Генератор продолжал улучшаться, пока его результаты не стали неотличимы от реальных данных. GAN привели напрямую к современной генерации изображений: Stable Diffusion, DALL-E и Midjourney ведут родословную отсюда. В том же году архитектура Seq2Seq представила модели encoder-decoder для машинного перевода.

2015 год принёс два критических ингредиента. Бахданау, Чо и Бенжио добавили механизм внимания (attention) к моделям sequence-to-sequence. Вместо сжатия всего входного предложения в один вектор фиксированного размера, модель могла «оглядываться назад» на любую часть входа при генерации каждого выходного слова. Эта идея стала сердцем Transformer. В том же году Каймин Хе представил ResNet с остаточными (skip) связями, позволяющими градиентам протекать через очень глубокие сети — 152+ слоёв. Без skip-связей Transformer не работал бы.

Конвергенция

Каждый элемент встал на место независимо: GPU (железо), ImageNet (данные), CNN (зрение), Word2Vec (язык), RNN/LSTM (моделирование последовательностей), attention (механизм), ResNet (глубина). Transformer объединил их все.

Взрыв вычислений

Наведите на точки, чтобы узнать, что стоит за каждым прорывом.

Вычисления росли экспоненциально → на пороге GPU (2012) глубокое обучение стало жизнеспособным → став жизнеспособным, прогресс тоже стал экспоненциальным. Каждые 10x вычислений открывали качественно новые возможности.

Веха вычисленийС бенчмарком ImageNet

Эволюция архитектур

RNN → LSTM → Трансформер: как менялась архитектура

2013–2015RNN (рекуррентная нейросеть)

Обрабатывает последовательности по одному токену за раз, передавая скрытое состояние вперёд. Основа нейросетевого NLP.

Работает с последовательностями переменной длины

Улавливает последовательные зависимости

✕Затухающие градиенты — забывает ранние токены

✕Последовательная обработка — нет параллелизма

✕Медленное обучение на длинных последовательностях

Революция Transformer

2017 – 2018

В июне 2017 года Васвани и др. из Google опубликовали «Attention Is All You Need» — пожалуй, самую влиятельную статью в истории AI. Ключевая идея была радикальной: полностью отказаться от рекуррентности, использовать ТОЛЬКО attention. Их архитектура Transformer полностью заменила рекуррентность на self-attention: каждый токен может напрямую обращаться к каждому другому, обеспечивая массивный параллелизм и устраняя проблему затухающих градиентов. Вместо обработки токенов по одному Transformer мог обрабатывать все токены параллельно — идеальное сочетание с GPU-оборудованием. Это означало более быстрое обучение, более длинные контекстные окна и лучшую производительность. Одна эта статья изменила всё.

В 2018 году из Transformer выросли два подхода. OpenAI выпустил GPT-1 (117M параметров): decoder-only модель, генерирующая текст слева направо, обученная предсказывать следующий токен. Это был первый генеративный предобученный трансформер, показавший, что decoder-only трансформер, обученный на сыром тексте, можно затем дообучить для конкретных задач. Парадигма генеративного предобучения родилась.

Четырьмя месяцами позже Google выпустил BERT (340M параметров): encoder-only модель, понимающая текст двунаправленно, обученная маскированием случайных слов и их предсказанием. Он доминировал практически на каждом NLP-бенчмарке, доказав, что предобучение на огромных неразмеченных текстах с последующей дообучкой — верный путь. GPT был более гибким для генерации, но BERT поначалу казался лучше для задач понимания. Спор решит масштаб.

Почему это важно

Трансформер не просто улучшил производительность — он изменил экономику AI. Параллельная обработка означала, что можно добавлять больше GPU для обучения. Это открыло дверь масштабированию — и масштабирование, как оказалось, было всем, что нужно.

Эволюция архитектур

Нажмите на каждую архитектуру, чтобы узнать, что изменилось и почему.

Добавили скрытые слои + backprop

Добавили память для последовательностей

Прямой доступ ко всем позициям

Убрали рекуррентность, полный параллелизм

Интерактивная хронология

Нажмите на точку, чтобы узнать подробности. Фильтруйте по категориям.

ПрорывВысокое влияниеСреднееНизкое

Эра масштабирования

2019 – 2021

OpenAI выпустил GPT-2 в феврале 2019 с 1.5 миллиардами параметров — и вызвал споры, не опубликовав полную модель, назвав её «слишком опасной для релиза». Её когерентная генерация текста на несколько абзацев поразила AI-сообщество.

Затем случился взрыв: GPT-3 в июне 2020, с 175 миллиардами параметров. GPT-3 продемонстрировал in-context learning — мог выполнять новые задачи просто по нескольким примерам в промпте, без дообучения. Few-shot промптинг родился, и вся область сместилась.

Исследователи обнаружили законы масштабирования: производительность модели предсказуемо улучшалась с ростом параметров, данных и вычислений. Kaplan и др. (2020) показали гладкие степенные зависимости. Позже статья DeepMind Chinchilla (2022) уточнила это — меньшие модели, обученные на большем количестве данных, могут превзойти более крупные, установив оптимальные пропорции обучения.

Пожалуй, самым поразительным были эмерджентные способности — возможности, появляющиеся внезапно при определённых размерах модели: арифметика, многоязычный перевод и генерация кода как будто «включались» за определёнными пороговыми значениями параметров.

Рост параметров

Наведите на точку для деталей. Нажмите на организацию в легенде для фильтрации.

Открытая модель

Рост обучающих данных

~1 млрд токенов

До трансформеров

10x→

~10 млрд токенов

Эра GPT-2

30x→

~300 млрд токенов

Эра GPT-3

~5x→

~1.4 трлн токенов

Эра Chinchilla

11x→

~15 трлн токенов

Эра Llama 3

Высота столбцов — логарифмическая шкала (log₁₀ токенов)

Момент ChatGPT

2022 – 2023

В январе 2022 года OpenAI опубликовал InstructGPT — продемонстрировав, как RLHF (обучение с подкреплением на основе обратной связи) может выровнять языковую модель с предпочтениями человека. Модель перешла от «способной, но непредсказуемой» к «полезной, безвредной и честной».

30 ноября 2022 года OpenAI запустил ChatGPT — и побил все рекорды роста. 100 миллионов пользователей за 2 месяца. Впервые нетехнические люди могли естественно общаться с AI. Мир осознал, на что способны большие языковые модели.

В марте 2023 появился GPT-4 — мультимодальный (текст + изображения), сдающий экзамен на адвоката на уровне 90-го перцентиля, отлично пишущий SAT и генерирующий production-качественный код. Он продемонстрировал, что LLM могут быть реально полезными профессионалами во многих областях.

Open-source сообщество ответило. Meta выпустил LLaMA в феврале 2023, вызвав взрыв открытых моделей. Mistral показал, что маленькие, хорошо обученные модели могут бить значительно выше своего веса. Началась гонка AI: Google запустил Gemini, Anthropic выпустил Claude, и десятки стартапов вступили в борьбу.

Прогресс бенчмарков

Massive Multitask Language Understanding — 57 предметовБенчмарк генерации кода — 164 задачиШкольная математика — 8.5K задач

Современный ландшафт

2024 – 2026

Гонка frontier-моделей продолжается: GPT-4o принёс нативную мультимодальность по меньшей цене, Claude 3.5 Sonnet превзошёл более крупные модели при вдвое меньшей стоимости, а Gemini 2.0 продвинул нативные мультимодальные возможности Google.

Open-source совершил огромный прорыв. Llama 3 405B сравнялся с закрытыми frontier-моделями. DeepSeek V3 доказал, что эффективное обучение MoE (обучение всего за $5.5M) может создать frontier-конкурентные модели. Mistral и Qwen продолжили двигать границу малых моделей.

Появилась новая парадигма: reasoning-модели. o1 от OpenAI ввёл chain-of-thought на этапе инференса, достигнув уровня PhD в математике и науке. DeepSeek R1 принёс открытые reasoning-модели. Claude получил возможности extended thinking. Эти модели «думают» перед ответом, тратя больше вычислений на этапе инференса для пошаговой проработки задач. Chain-of-thought стал техникой обучения, а не только промптинга.

Контекстные окна взорвались: от 4K токенов (GPT-3) до 1M+ токенов (Gemini). Стоимость за токен рухнула в 100 раз за два года. Мультимодальность — текст, изображения, аудио, видео — стала стандартом, а не исключением.

Claude от Anthropic выбрал особый подход с Constitutional AI — обучение модели следовать набору принципов, а не только полагаться на обратную связь от людей. От Claude 2 через Claude 3 (Haiku, Sonnet, Opus) к Claude 4 — фокус на безопасности, полезности и честности как ключевых ценностях, а не дополнении.

AI-агенты — последний рубеж. LLM эволюционировали из чатботов в автономные инструменты, которые используют другие инструменты, просматривают веб, пишут и выполняют код, оркестрируют сложные многошаговые процессы. Claude Code, Cursor и Devin — ранние примеры будущего, где AI не просто отвечает на вопросы, а выполняет задачи.

Чем эта волна AI отличается от предыдущих? У неё есть бизнес-модель. ChatGPT, Claude, Gemini и GitHub Copilot — продукты с миллионами платящих пользователей. AI-компании генерируют миллиарды выручки. Это значит, что развитие не остановится, даже если хайп остынет — слишком много денег вливается в отрасль. Зима, если придёт, будет мягче предыдущих.

Где мы сейчас

Мы живём в самый стремительный период развития AI в истории. Вопрос уже не «будет ли AI полезен?», а «как строить с ним ответственно?»

Ландшафт современных моделей

Нажмите на модель для деталей. Фильтруйте по типу.

Закрытая модельOpen sourceРазмер точки = оценка числа параметров

Куда всё движется

Ближайшее будущее

AI-агенты — следующий рубеж. Модели эволюционируют из чатботов в автономные инструменты, способные просматривать веб, писать и выполнять код, управлять файлами и оркестрировать сложные рабочие процессы. Claude Code, Devin и агенты компьютерного взаимодействия намекают на будущее, где AI — способный коллаборатор, а не просто генератор текста.

Рассуждение и планирование становятся первоклассными возможностями. Модели, которые «думают перед ответом» через расширенный chain-of-thought, решают задачи, требующие многошаговой логики.

Компактные модели сокращают разрыв с frontier-гигантами через дистилляцию, квантизацию и архитектурные инновации. Модель с 7B параметрами сегодня соответствует 175B всего двухлетней давности.

Дебаты open vs. closed обостряются. Открытые модели (Llama, DeepSeek, Mistral) доказывают, что доступность двигает инновации, в то время как провайдеры закрытых моделей утверждают, что безопасность требует контроля. Баланс между открытостью и безопасностью определит развитие отрасли.

Зачем это знать

Каждая эра эволюции AI и LLM напрямую связана с навыками, которые вы освоите на этой платформе:

Токенизация и эмбеддинги

Как модели превращают текст в числа (наследие Word2Vec)

Attention и трансформеры

Архитектура, которая стоит за всем с 2017 года

Техники промптинга

Использование in-context learning, открытого в эру масштабирования

AI-агенты

Следующий рубеж: модели, которые действуют, а не просто отвечают

Продакшн и безопасность

Ответственное развёртывание LLM в реальном мире

Понимание истории даёт вам контекст для каждой техники, архитектуры и практики, которые вы встретите. Вы будете знать почему вещи работают так, как работают, а не просто как их использовать.

Готовы начать обучение?

Ваш следующий шаг — Нейронные сети — понимание того, как строительные блоки современного AI на самом деле работают. Это фундамент для всего остального.

Рождение искусственного разума

1943 – 1969

Урок

От нейрона к перцептрону

Исследуйте эволюцию первой обучаемой машины.

Зимы AI и скрытый прогресс

1970 – 2005

Скрытый фундамент

Циклы хайпа AI

Нажмите на вехи, чтобы узнать больше. Светящиеся точки — прорывы во время зим AI.

ВехаОткрыто во время зимы AI

Зажигание глубокого обучения

2006 – 2016

Конвергенция

Взрыв вычислений

Наведите на точки, чтобы узнать, что стоит за каждым прорывом.

Веха вычисленийС бенчмарком ImageNet

Эволюция архитектур

RNN → LSTM → Трансформер: как менялась архитектура

2013–2015RNN (рекуррентная нейросеть)

Работает с последовательностями переменной длины

Улавливает последовательные зависимости

✕Затухающие градиенты — забывает ранние токены

✕Последовательная обработка — нет параллелизма

✕Медленное обучение на длинных последовательностях

Революция Transformer

2017 – 2018

Почему это важно

Эволюция архитектур

Нажмите на каждую архитектуру, чтобы узнать, что изменилось и почему.

Добавили скрытые слои + backprop

Добавили память для последовательностей

Прямой доступ ко всем позициям

Убрали рекуррентность, полный параллелизм

Интерактивная хронология

Нажмите на точку, чтобы узнать подробности. Фильтруйте по категориям.

ПрорывВысокое влияниеСреднееНизкое

Эра масштабирования

2019 – 2021

Рост параметров

Наведите на точку для деталей. Нажмите на организацию в легенде для фильтрации.

Открытая модель

Рост обучающих данных

~1 млрд токенов

До трансформеров

10x→

~10 млрд токенов

Эра GPT-2

30x→

~300 млрд токенов

Эра GPT-3

~5x→

~1.4 трлн токенов

Эра Chinchilla

11x→

~15 трлн токенов

Эра Llama 3

Высота столбцов — логарифмическая шкала (log₁₀ токенов)

Момент ChatGPT

2022 – 2023

Прогресс бенчмарков

Massive Multitask Language Understanding — 57 предметовБенчмарк генерации кода — 164 задачиШкольная математика — 8.5K задач

Современный ландшафт

2024 – 2026

Где мы сейчас

Ландшафт современных моделей

Нажмите на модель для деталей. Фильтруйте по типу.

Закрытая модельOpen sourceРазмер точки = оценка числа параметров

Куда всё движется

Ближайшее будущее

Зачем это знать

Каждая эра эволюции AI и LLM напрямую связана с навыками, которые вы освоите на этой платформе:

Токенизация и эмбеддинги

Как модели превращают текст в числа (наследие Word2Vec)

Attention и трансформеры

Архитектура, которая стоит за всем с 2017 года

Техники промптинга

Использование in-context learning, открытого в эру масштабирования

AI-агенты

Следующий рубеж: модели, которые действуют, а не просто отвечают

Продакшн и безопасность

Ответственное развёртывание LLM в реальном мире

Готовы начать обучение?

Хронология AI

Рождение искусственного разума

От нейрона к перцептрону

Зимы AI и скрытый прогресс

Циклы хайпа AI

Зажигание глубокого обучения

Взрыв вычислений

Эволюция архитектур

Революция Transformer

Эволюция архитектур

Интерактивная хронология

Эра масштабирования

Рост параметров

Рост обучающих данных

Момент ChatGPT

Прогресс бенчмарков

Современный ландшафт

Ландшафт современных моделей

Куда всё движется

Зачем это знать

Хронология AI

Рождение искусственного разума

От нейрона к перцептрону

Зимы AI и скрытый прогресс

Циклы хайпа AI

Зажигание глубокого обучения

Взрыв вычислений

Эволюция архитектур

Революция Transformer

Эволюция архитектур

Интерактивная хронология

Эра масштабирования

Рост параметров

Рост обучающих данных

Момент ChatGPT

Прогресс бенчмарков

Современный ландшафт

Ландшафт современных моделей

Куда всё движется

Зачем это знать