AI Safety и Alignment
Узнай, как LLM обучают быть полезными, безвредными и честными с помощью RLHF, DPO и Constitutional AI
Проблема: LLM обучаются на огромных интернет-датасетах, содержащих вредную, предвзятую и ложную информацию. Как сделать эти модели безопасными, полезными и честными — не потеряв их возможности?
Решение: Выровняй модели с человеческими ценностями
Alignment — это процесс обучения моделей следовать человеческим ценностям, инструкциям и правилам безопасности. Базовая LLM, обученная на данных из интернета, может генерировать вредные, предвзятые или недостоверные ответы. Техники alignment — RLHF, DPO и Constitutional AI — превращают эти сырые модели в полезных, безвредных и честных ассистентов.
Представьте это как дрессировка сторожевой собаки — она должна быть достаточно сильной для защиты, но управляемой, чтобы не нападать на хозяина:
- 1. Шаг 1: Supervised Fine-Tuning (SFT): Обучи базовую модель на качественных парах инструкция-ответ, написанных людьми. Это учит модель ФОРМАТУ работы ассистента
- 2. Шаг 2: Обучение предпочтениям (RLHF или DPO): Разметчики ранжируют выводы модели от лучших к худшим. RLHF обучает reward-модель + PPO; DPO пропускает reward-модель и оптимизирует напрямую по предпочтениям
- 3. Шаг 3: Обучение безопасности: Red-team модель для поиска вредных ответов, затем обучи её отказывать в опасных запросах, оставаясь полезной для легитимных
- 4. Шаг 4: Оцени и итерируй: Тестируй с бенчмарками безопасности (TruthfulQA, BBQ, HarmBench), мониторь в продакшне на reward hacking и неожиданное поведение
Ключевые методы alignment
- Pipeline RLHF: Pre-training → SFT (обучение с учителем) → обучение Reward Model → оптимизация PPO. InstructGPT использовал всего 40 разметчиков, чтобы кардинально улучшить GPT-3 с помощью этого pipeline
- DPO (Direct Preference Optimization): Убирает отдельную reward-модель — обучает напрямую на парах предпочтений (выбранный vs отклонённый). Проще, стабильнее, то же качество. Используется Llama 3, Mistral
- Constitutional AI: Подход Anthropic: модель критикует свои выводы, используя набор принципов (конституцию), затем исправляет их. Уменьшает потребность в разметчиках. Используется для обучения Claude
- Reward Hacking: Модели могут научиться эксплуатировать reward-сигнал вместо реального улучшения. Пример: модель учится давать многословные ответы, потому что разметчики предпочитали длинные ответы, а не лучшие
Интересный факт: Статья OpenAI InstructGPT показала, что модель с 1.3B параметрами и RLHF была предпочтительнее для людей, чем GPT-3 с 175B параметрами без alignment — доказав, что alignment важнее, чем масштаб.
Попробуйте сами!
Изучи интерактивный pipeline ниже, чтобы увидеть, как сырые модели становятся безопасными ассистентами.
Alignment — это процесс обучения AI-систем действовать в соответствии с человеческими намерениями и ценностями. Без alignment модели могут быть вредными, нечестными или бесполезными — даже если технически мощные.
- •Pre-training: обучение на интернет-данных (предсказание следующего токена)
- •SFT: обучение формату ассистента на качественных парах
- •RLHF/DPO: обучение предпочтениям людей (что лучше, а что хуже)
- •Red Teaming: поиск и устранение уязвимостей
- •RLHF — reward-модель + PPO (GPT-4, Claude, Gemini)
- •DPO — напрямую по предпочтениям, без reward-модели (Llama 3)
- •Constitutional AI — самокритика по принципам (Claude)
- •GRPO — групповая оптимизация для reasoning (DeepSeek R1)
- •Reward hacking: модель обманывает reward-сигнал
- •Alignment tax: безопасность vs возможности
- •Scalable oversight: контроль за сверхинтеллектуальными системами
- •Value alignment: чьи ценности закладывать?
Сырая модель, обученная на тексте из интернета. Предсказывает следующий токен. Нет понятия полезности или безопасности.
Как вскрыть замок?
Сначала вам нужен натяжной ключ и отмычка. Вставьте ключ в нижнюю часть замочной скважины и слегка надавите...
• Без alignment LLM с 175B параметрами может быть менее полезной, чем aligned-модель с 1.3B (InstructGPT paper).
• Jailbreaks работают именно потому, что alignment статистический, а не абсолютный — модель «вероятно» откажет, но не «гарантированно».
• По мере роста возможностей моделей, alignment становится всё более критичным — более мощная модель без alignment более опасна.
Создайте бесплатный аккаунт для решения челленджей
3 челленджей с AI-проверкой для этого урока
Этот урок — часть структурированного курса по LLM.
Мой путь обучения