Нейронные сети
Как миллиарды простых вычислений создают интеллект
Проблема: Вы постоянно слышите "нейронная сеть", но что на самом деле представляет собой нейрон в AI? Как миллиарды простых вычислений объединяются для генерации текста, похожего на человеческий? Понимание нейронных сетей — фундамент для понимания того, почему LLM работают и почему иногда нет.
Решение: Как работают нейронные сети
Нейронная сеть — это система взаимосвязанных искусственных нейронов, организованных в слои. Каждый нейрон вычисляет взвешенную сумму своих входов, добавляет смещение (bias) и пропускает результат через функцию активации (например, ReLU или sigmoid). Ключевое понимание: без нелинейных функций активации 100 слоёв математически схлопнулись бы в одно линейное преобразование — именно функции активации делают "глубокое" обучение возможным. При обучении обратное распространение ошибки использует цепное правило для вычисления вклада каждого из миллиардов весов в ошибку, а затем корректирует их через градиентный спуск.
Представьте это как заводской конвейер — каждый рабочий (нейрон) выполняет одну простую задачу: складывает входные данные и решает да или нет, но 96 станций рабочих в цепочке, каждая уточняя результат предыдущей, вместе превращают сырой текст в осмысленные предсказания:
- 1. Входной слой принимает данные: Ваш промпт преобразуется в числа (через токенизацию и эмбеддинги) и подаётся на входной слой. В LLM это означает, что ID токенов становятся векторами эмбеддингов — каждое число представляет признак входных данных
- 2. Скрытые слои трансформируют представления: Каждый скрытый слой применяет веса, смещения и функции активации для трансформации данных. GPT-4 имеет ~120 таких слоёв. Ранние слои обнаруживают простые паттерны (грамматика, частые фразы); глубокие слои улавливают смысл, контекст и паттерны рассуждений
- 3. Выходной слой выдаёт вероятности: Финальный слой использует softmax для преобразования сырых оценок (logits) в распределение вероятностей по всему словарю (~100K токенов). Модель затем выбирает следующий токен на основе этих вероятностей — именно здесь temperature влияет на вывод
- 4. Обратное распространение обучает сеть: При обучении ошибка между предсказанным и реальным следующим токеном распространяется назад через все слои. Цепное правило вычисляет градиенты для каждого веса, а градиентный спуск корректирует их. Повторить миллиарды раз на триллионах токенов — так LLM обучается
Нейронные сети в LLM
- Генерация текста: Каждая LLM — это нейронная сеть. GPT-4 имеет ~1.8 триллиона параметров (весов на соединениях между нейронами), организованных в ~120 слоёв. Когда вы общаетесь с ChatGPT, ваш промпт проходит через все эти слои в прямом проходе, а softmax на выходе выдаёт следующий токен
- Контроль temperature: Когда вы меняете temperature в настройках LLM, вы модифицируете функцию активации softmax на выходном слое. Temperature=0 делает токен с наибольшей вероятностью почти гарантированным; temperature=2 сглаживает распределение, делая вывод креативнее, но менее предсказуемым
- Размер модели и параметры: Когда говорят, что модель имеет "7 миллиардов параметров", имеют в виду 7 миллиардов обучаемых весов на соединениях между нейронами. Больше параметров = больше возможностей хранить паттерны, но и больше вычислений и памяти. Llama 3 70B имеет 70 миллиардов весов в 80 слоях
- Частая ошибка: Нейронные сети не "думают" как люди. Каждый прямой проход — это фиксированное математическое вычисление, внутри не происходит рассуждений. Иллюзия интеллекта возникает из паттернов, выученных на триллионах токенов во время обучения через обратное распространение
Интересный факт: GPT-3 был обучен обратным распространением через 175 миллиардов параметров на 300 миллиардах токенов текста. Тот же алгоритм, изобретённый в 1986 году — просто применённый в невообразимом масштабе. Простая сеть 3-4-2 имеет 14 весов; GPT-4 — около 1.8 триллиона.
Попробуйте сами!
Исследуй интерактивную нейросеть ниже: меняй входные данные, наблюдай за прямым проходом, переключай функции активации и смотри, как обратное распространение корректирует веса.
Эта сеть определяет, спам ли письмо. Двигай ползунки — насколько «подозрительно» это письмо?
Опиши письмо (0 = нет, 1 = точно да):
Попробуй: Поставь «Слова выигрыш» и «Подозрительные ссылки» на максимум, «Знакомый отправитель» на 0. Сеть определит спам. Теперь наоборот — знакомый отправитель высоко, остальное низко. Gmail делает то же самое, только с миллионами входов вместо 3.
Всего параметров: Эта крошечная сеть имеет 3x4 + 4 + 4x2 + 2 = 26 параметров. GPT-4 имеет ~1.8 триллиона. Тот же принцип, совершенно другой масштаб.
Попробуй сам
Интерактивное демо этой техники
Получить понятное объяснение нейронных сетей для нетехнического специалиста
Нейронные сети — это модели машинного обучения, вдохновлённые мозгом. Они состоят из узлов и связей. Используются в глубоком обучении для различных задач, таких как распознавание образов и обработка текста.
Один нейрон:
- Получает входы (x1=0.7, x2=0.3, x3=0.9)
- Умножает на веса (w1=0.5, w2=-0.3, w3=0.8)
- Складывает: 0.70.5 + 0.3(-0.3) + 0.9*0.8 = 0.98
- Применяет ReLU: max(0, 0.98) = 0.98 → передаёт дальше
Масштаб GPT-4:
- ~1.8 триллиона таких операций
- ~120 слоёв (как 120 станций конвейера)
- Каждый слой уточняет понимание: ранние — грамматика, глубокие — смысл
- Softmax на выходе даёт вероятности ~100K токенов
Аналогия: Конвейер из 120 станций. Каждый рабочий делает одну простую операцию, но цепочка из 1.8 триллиона рабочих превращает сырой текст в осмысленный ответ.
Промпт "от простого к сложному" (один нейрон → миллиарды) с конкретными числами и аналогией даёт структурированный, запоминающийся ответ вместо абстрактного описания.
Создайте бесплатный аккаунт для решения челленджей
3 челленджей с AI-проверкой для этого урока
Этот урок — часть структурированного курса по LLM.
Мой путь обучения