Нейронные сети
Как миллиарды простых вычислений создают интеллект
Проблема: Вы постоянно слышите "нейронная сеть", но что на самом деле представляет собой нейрон в AI? Как миллиарды простых вычислений объединяются для генерации текста, похожего на человеческий? Понимание нейронных сетей — фундамент для понимания того, почему LLM работают и почему иногда нет.
Решение: Как работают нейронные сети
Нейронная сеть — это система взаимосвязанных искусственных нейронов, организованных в слои. Каждый нейрон вычисляет взвешенную сумму своих входов, добавляет смещение (bias) и пропускает результат через функцию активации (например, ReLU или sigmoid). Ключевое понимание: без нелинейных функций активации 100 слоёв математически схлопнулись бы в одно линейное преобразование — именно функции активации делают "глубокое" обучение возможным. При обучении обратное распространение ошибки использует цепное правило для вычисления вклада каждого из миллиардов весов в ошибку, а затем корректирует их через градиентный спуск.
Представьте это как заводской конвейер — каждый рабочий (нейрон) выполняет одну простую задачу: складывает входные данные и решает да или нет, но 96 станций рабочих в цепочке, каждая уточняя результат предыдущей, вместе превращают сырой текст в осмысленные предсказания:
- 1. Входной слой принимает данные: Ваш промпт преобразуется в числа (через токенизацию и эмбеддинги) и подаётся на входной слой. В LLM это означает, что ID токенов становятся векторами эмбеддингов — каждое число представляет признак входных данных
- 2. Скрытые слои трансформируют представления: Каждый скрытый слой применяет веса, смещения и функции активации для трансформации данных. GPT-4 имеет ~120 таких слоёв. Ранние слои обнаруживают простые паттерны (грамматика, частые фразы); глубокие слои улавливают смысл, контекст и паттерны рассуждений
- 3. Выходной слой выдаёт вероятности: Финальный слой использует softmax для преобразования сырых оценок (logits) в распределение вероятностей по всему словарю (~100K токенов). Модель затем выбирает следующий токен на основе этих вероятностей — именно здесь temperature влияет на вывод
- 4. Обратное распространение обучает сеть: При обучении ошибка между предсказанным и реальным следующим токеном распространяется назад через все слои. Цепное правило вычисляет градиенты для каждого веса, а градиентный спуск корректирует их. Повторить миллиарды раз на триллионах токенов — так LLM обучается
Нейронные сети в LLM
- Генерация текста: Каждая LLM — это нейронная сеть. GPT-4 имеет ~1.8 триллиона параметров (весов на соединениях между нейронами), организованных в ~120 слоёв. Когда вы общаетесь с ChatGPT, ваш промпт проходит через все эти слои в прямом проходе, а softmax на выходе выдаёт следующий токен
- Контроль temperature: Когда вы меняете temperature в настройках LLM, вы модифицируете функцию активации softmax на выходном слое. Temperature=0 делает токен с наибольшей вероятностью почти гарантированным; temperature=2 сглаживает распределение, делая вывод креативнее, но менее предсказуемым
- Размер модели и параметры: Когда говорят, что модель имеет "7 миллиардов параметров", имеют в виду 7 миллиардов обучаемых весов на соединениях между нейронами. Больше параметров = больше возможностей хранить паттерны, но и больше вычислений и памяти. Llama 3 70B имеет 70 миллиардов весов в 80 слоях
- Частая ошибка: Нейронные сети не "думают" как люди. Каждый прямой проход — это фиксированное математическое вычисление, внутри не происходит рассуждений. Иллюзия интеллекта возникает из паттернов, выученных на триллионах токенов во время обучения через обратное распространение
Интересный факт: GPT-3 был обучен обратным распространением через 175 миллиардов параметров на 300 миллиардах токенов текста. Тот же алгоритм, изобретённый в 1986 году — просто применённый в невообразимом масштабе. Простая сеть 3-4-2 имеет 14 весов; GPT-4 — около 1.8 триллиона.
Попробуйте сами!
Исследуй интерактивную нейросеть ниже: меняй входные данные, наблюдай за прямым проходом, переключай функции активации и смотри, как обратное распространение корректирует веса.
Эта сеть определяет, спам ли письмо. Двигай ползунки — насколько «подозрительно» это письмо?
Опиши письмо (0 = нет, 1 = точно да):
Попробуй: Поставь «Слова выигрыш» и «Подозрительные ссылки» на максимум, «Знакомый отправитель» на 0. Сеть определит спам. Теперь наоборот — знакомый отправитель высоко, остальное низко. Gmail делает то же самое, только с миллионами входов вместо 3.
Всего параметров: Эта крошечная сеть имеет 3x4 + 4 + 4x2 + 2 = 26 параметров. GPT-4 имеет ~1.8 триллиона. Тот же принцип, совершенно другой масштаб.
Частые вопросы
Что такое искусственный нейрон и как он работает?
Искусственный нейрон принимает несколько входов, умножает каждый на вес, суммирует их и пропускает результат через функцию активации (например, ReLU или sigmoid). Один нейрон принимает одно простое решение, но миллиарды нейронов, соединённых в слои, создают интеллект LLM вроде GPT-4.
Почему функции активации важны в нейронных сетях?
Без нелинейных функций активации 100 слоёв математически схлопнулись бы в одно линейное преобразование. Функции активации вроде ReLU вносят нелинейность, позволяя сети обучаться сложным паттернам. Softmax на выходном слое преобразует сырые оценки в распределение вероятностей — именно так LLM выбирает следующий токен.
Что делает обратное распространение ошибки при обучении LLM?
Обратное распространение вычисляет, насколько каждый вес повлиял на ошибку предсказания, используя цепное правило дифференцирования. Сигнал ошибки идёт назад через все слои, и каждый вес корректируется для уменьшения будущих ошибок. GPT-3 был обучен таким образом — 175 миллиардов параметров на 300 миллиардах токенов текста.
Попробуй сам
Интерактивное демо этой техники
Получить понятное объяснение нейронных сетей для нетехнического специалиста
Нейронные сети — это модели машинного обучения, вдохновлённые мозгом. Они состоят из узлов и связей. Используются в глубоком обучении для различных задач, таких как распознавание образов и обработка текста.
Один нейрон:
- Получает входы (x1=0.7, x2=0.3, x3=0.9)
- Умножает на веса (w1=0.5, w2=-0.3, w3=0.8)
- Складывает: 0.70.5 + 0.3(-0.3) + 0.9*0.8 = 0.98
- Применяет ReLU: max(0, 0.98) = 0.98 → передаёт дальше
Масштаб GPT-4:
- ~1.8 триллиона таких операций
- ~120 слоёв (как 120 станций конвейера)
- Каждый слой уточняет понимание: ранние — грамматика, глубокие — смысл
- Softmax на выходе даёт вероятности ~100K токенов
Аналогия: Конвейер из 120 станций. Каждый рабочий делает одну простую операцию, но цепочка из 1.8 триллиона рабочих превращает сырой текст в осмысленный ответ.
Промпт "от простого к сложному" (один нейрон → миллиарды) с конкретными числами и аналогией даёт структурированный, запоминающийся ответ вместо абстрактного описания.
Создайте бесплатный аккаунт для решения челленджей
3 челленджей с AI-проверкой для этого урока
Этот урок — часть структурированного курса по LLM.
Мой путь обучения