AI Safety и Alignment

Узнай, как LLM обучают быть полезными, безвредными и честными с помощью RLHF, DPO и Constitutional AI

Проблема: LLM обучаются на огромных интернет-датасетах, содержащих вредную, предвзятую и ложную информацию. Как сделать эти модели безопасными, полезными и честными — не потеряв их возможности?

Решение: Выровняй модели с человеческими ценностями

Alignment — это процесс обучения моделей следовать человеческим ценностям, инструкциям и правилам безопасности. Базовая LLM, обученная на данных из интернета, может генерировать вредные, предвзятые или недостоверные ответы. Техники alignment — RLHF, DPO и Constitutional AI — превращают эти сырые модели в полезных, безвредных и честных ассистентов.

Представьте это как дрессировка сторожевой собаки — она должна быть достаточно сильной для защиты, но управляемой, чтобы не нападать на хозяина:

1. Шаг 1: Supervised Fine-Tuning (SFT): Обучи базовую модель на качественных парах инструкция-ответ, написанных людьми. Это учит модель ФОРМАТУ работы ассистента
2. Шаг 2: Обучение предпочтениям (RLHF или DPO): Разметчики ранжируют выводы модели от лучших к худшим. RLHF обучает reward-модель + PPO; DPO пропускает reward-модель и оптимизирует напрямую по предпочтениям
3. Шаг 3: Обучение безопасности: Red-team модель для поиска вредных ответов, затем обучи её отказывать в опасных запросах, оставаясь полезной для легитимных
4. Шаг 4: Оцени и итерируй: Тестируй с бенчмарками безопасности (TruthfulQA, BBQ, HarmBench), мониторь в продакшне на reward hacking и неожиданное поведение

Ключевые методы alignment

Pipeline RLHF: Pre-training → SFT (обучение с учителем) → обучение Reward Model → оптимизация PPO. InstructGPT использовал всего 40 разметчиков, чтобы кардинально улучшить GPT-3 с помощью этого pipeline
DPO (Direct Preference Optimization): Убирает отдельную reward-модель — обучает напрямую на парах предпочтений (выбранный vs отклонённый). Проще, стабильнее, то же качество. Используется Llama 3, Mistral
Constitutional AI: Подход Anthropic: модель критикует свои выводы, используя набор принципов (конституцию), затем исправляет их. Уменьшает потребность в разметчиках. Используется для обучения Claude
Reward Hacking: Модели могут научиться эксплуатировать reward-сигнал вместо реального улучшения. Пример: модель учится давать многословные ответы, потому что разметчики предпочитали длинные ответы, а не лучшие

Интересный факт: Статья OpenAI InstructGPT показала, что модель с 1.3B параметрами и RLHF была предпочтительнее для людей, чем GPT-3 с 175B параметрами без alignment — доказав, что alignment важнее, чем масштаб.

Попробуйте сами!

Изучи интерактивный pipeline ниже, чтобы увидеть, как сырые модели становятся безопасными ассистентами.

Что такое AI Alignment?

Alignment — это процесс обучения AI-систем действовать в соответствии с человеческими намерениями и ценностями. Без alignment модели могут быть вредными, нечестными или бесполезными — даже если технически мощные.

Pipeline обучения

•Pre-training: обучение на интернет-данных (предсказание следующего токена)
•SFT: обучение формату ассистента на качественных парах
•RLHF/DPO: обучение предпочтениям людей (что лучше, а что хуже)
•Red Teaming: поиск и устранение уязвимостей

Методы alignment

•RLHF — reward-модель + PPO (GPT-4, Claude, Gemini)
•DPO — напрямую по предпочтениям, без reward-модели (Llama 3)
•Constitutional AI — самокритика по принципам (Claude)
•GRPO — групповая оптимизация для reasoning (DeepSeek R1)

Открытые проблемы

•Reward hacking: модель обманывает reward-сигнал
•Alignment tax: безопасность vs возможности
•Scalable oversight: контроль за сверхинтеллектуальными системами
•Value alignment: чьи ценности закладывать?

Alignment Pipeline и методы

Сырая модель, обученная на тексте из интернета. Предсказывает следующий токен. Нет понятия полезности или безопасности.

Запрос пользователя

Как вскрыть замок?

Ответ модели

Сначала вам нужен натяжной ключ и отмычка. Вставьте ключ в нижнюю часть замочной скважины и слегка надавите...

Почему alignment так важен?

• Без alignment LLM с 175B параметрами может быть менее полезной, чем aligned-модель с 1.3B (InstructGPT paper).

• Jailbreaks работают именно потому, что alignment статистический, а не абсолютный — модель «вероятно» откажет, но не «гарантированно».

• По мере роста возможностей моделей, alignment становится всё более критичным — более мощная модель без alignment более опасна.

Практика

Создайте бесплатный аккаунт для решения челленджей

3 челленджей с AI-проверкой для этого урока

Связанные уроки:Jailbreaking Biases

Этот урок — часть структурированного курса по LLM.

Мой путь обучения