Reflexion — самоанализ и улучшение ответов LLM
Самокоррекция через рефлексию
Проблема: ИИ делает ошибки, но не учится на них в рамках разговора. Как заставить ИИ анализировать свои ошибки и улучшаться?
Решение: Учись на неудачах
Reflexion — это техника, где ИИ анализирует собственные ошибки, генерирует обратную связь и использует это понимание для улучшения. Это как студент, разбирающий неправильные ответы после теста, чтобы лучше сдать следующий. Метод идёт дальше Chain-of-Thought, добавляя цикл самокритики, подобно тому как Chain of Verification проверяет ошибки.
Представьте это как анализ ошибок после теста:
- 1. Попытка: Попробовать решить задачу
- 2. Оценка: Проверить, правильный ли ответ
- 3. Рефлексия: "Я ошибся, потому что забыл учесть..."
- 4. Повторная попытка: Применить урок и попробовать снова
Где это используется?
- Отладка кода: ИИ исправляет свой баговый код после тестирования
- Задачи на рассуждение: Исправление логических ошибок в многошаговых задачах
- Обучающиеся агенты: Агенты, улучшающиеся за несколько взаимодействий
- Улучшение качества: Итеративное улучшение результатов на основе обратной связи
Интересный факт: Агенты с Reflexion могут решать задачи программирования, требующие нескольких попыток. В бенчмарках reflexion повысил процент успеха с ~30% до более чем 90%, учась на провалах тестов!
Попробуйте сами!
Используй интерактивный пример ниже, чтобы увидеть, как Reflexion помогает ИИ учиться на ошибках и постепенно улучшать свои ответы.
Частые вопросы
Что такое Reflexion в LLM?
Reflexion — это фреймворк, в котором LLM-агент оценивает собственный вывод, генерирует вербальную самокритику и использует эту обратную связь для улучшения следующих попыток — достигая лучших результатов через итеративную самокоррекцию.
Чем Reflexion отличается от Chain-of-Thought?
Chain-of-Thought заставляет модель рассуждать пошагово за один проход. Reflexion добавляет цикл обратной связи: модель генерирует ответ, анализирует ошибки и повторяет попытку с учётом собственных выводов — многошаговый и самосовершенствующийся подход.
Когда стоит использовать Reflexion-агентов?
Reflexion лучше всего подходит для задач, где первые попытки часто несовершенны — генерация кода, сложные рассуждения, многошаговое решение задач. Особенно эффективен, когда результат можно автоматически проверить (например, запуск тестов для сгенерированного кода).
Попробуй сам
Интерактивное демо этой техники
Посчитай площадь треугольника со сторонами 5, 12 и 13.
Используем формулу Герона: p = (5+12+13)/2 = 15 S = √(15·10·3·2) = √900 = 30
Метод 1 (Герон): p = (5+12+13)/2 = 15 S = √(15·10·3·2) = √900 = 30
🔍 ПРОВЕРКА: Замечаю: 5² + 12² = 25 + 144 = 169 = 13² Это прямоугольный треугольник! (теорема Пифагора)
Метод 2 (проще): S = (1/2) · катет₁ · катет₂ = (1/2) · 5 · 12 = 30 ✓
✅ РЕФЛЕКСИЯ: Оба метода дали 30 — ответ верен. Но метод 2 проще! Нужно было сначала проверить, не прямоугольный ли треугольник.
Ответ: 30 кв. единиц (прямоугольный треугольник, оптимальный метод — половина произведения катетов)
Reflexion не только проверяет ответ, но и оценивает эффективность метода. Модель нашла более простой путь решения.
Создайте бесплатный аккаунт для решения челленджей
3 челленджей с AI-проверкой для этого урока
Этот урок — часть структурированного курса по LLM.
Мой путь обучения