Урок 4

Self-Consistency — повышение точности голосованием

Голосование за лучший ответ

Проблема: ИИ может быть непоследователен — задай один вопрос дважды и можешь получить разные ответы. Как повысить уверенность в результате?

Решение: Спроси нескольких экспертов

Self-Consistency означает генерацию нескольких путей рассуждения и выбор самого частого ответа. Вместо того чтобы доверять одному ответу, вы просите ИИ решить задачу несколько раз и проводите "голосование" за финальный ответ. Метод строится на Chain-of-Thought, сэмплируя множество цепочек рассуждений вместо одной.

Представьте это как консультацию у нескольких экспертов:

1. Эксперт 1: "Думаю, ответ 42, потому что..."
2. Эксперт 2: "Я получил 42 другим методом..."
3. Эксперт 3: "Мой подход даёт 38, вот почему..."
4. Консенсус: Двое из трёх говорят 42 — это наш ответ!

Где это используется?

Математические задачи: Сложные вычисления, где ошибки вероятны
Медицинская диагностика: Получение второго и третьего мнения
Ревью кода: Множественный анализ потенциальных багов
Важные решения: Любые задачи, где точность критична

Интересный факт: Self-consistency может повысить точность на 5-15% в задачах на рассуждение! Ключ — использовать "температуру" (случайность), чтобы каждая попытка шла немного другим путём. Обычно достаточно 5-10 выборок.

Попробуйте сами!

Используй интерактивный пример ниже, чтобы увидеть, как несколько путей рассуждения могут привести к более надёжным ответам через голосование большинством.

Что такое Self-Consistency?

Вместо одного ответа, генерируем множество путей рассуждения (5-40 сэмплов) при высокой температуре, затем выбираем самый частый итоговый ответ голосованием большинства.

Как работает голосование

Каждый сэмпл создаёт цепочку рассуждений → итоговый ответ. Ответы группируются по значению. Побеждает ответ, появляющийся в наибольшем числе сэмплов. Ничьи разрешаются по уверенности или первому вхождению.

Стоимость vs Качество

5 сэмплов: ~5x стоимость, умеренное улучшение. 10 сэмплов: оптимальный баланс для большинства задач. 40 сэмплов: маргинальный рост. Температура 0.7-1.0 для разнообразных путей.

Когда использовать

Лучше всего для: математики, логических задач, рассуждений здравого смысла, задач по коду. Не стоит для: творческого письма, открытых вопросов, задач без единственного правильного ответа.

Self-Consistency — Голосование ответов

🗳️ Self-Consistency — улучшение Chain of Thought! Генерируем несколько разных рассуждений и выбираем самый частый ответ через голосование. Это помогает избежать случайных ошибок!

Выбери задачу:

Вопрос:

В магазине было 12 яблок и 8 апельсинов. Продали 5 фруктов. Если среди проданных было 3 яблока, сколько апельсинов осталось?

Одиночный CoT

Рассуждение:

Всего фруктов: 12 + 8 = 20. Продали 5, осталось 20 - 5 = 15. Апельсинов было 8, так что... примерно 6?

Ответ:

6 апельсинов

⚠️ Ошибка в рассуждении!

Self-Consistency

👆 Нажми "Сгенерировать 5 ответов" чтобы увидеть параллельные рассуждения

🔄 Как работает Self-Consistency:

1. Генерация

Создаём 5+ разных цепочек рассуждений с температурой > 0

2. Сбор ответов

Извлекаем финальный ответ из каждого пути

3. Голосование

Выбираем самый частый ответ (majority vote)

⚡ Когда использовать Self-Consistency:

Математические задачи с несколькими шагами
Задачи с логическими рассуждениями
Когда важна высокая точность (медицина, финансы)
Вопросы, где одна ошибка меняет весь ответ

Ключевая идея

Self-Consistency работает потому что даже если одно рассуждение содержит ошибку, правильный ответ чаще появляется в других путях. Это "мудрость толпы" для LLM! Минус: требует больше токенов (5× вызовов), но точность повышается на 10-30% для сложных задач.

Как использовать Self-Consistency

Self-Consistency — это НЕ особый промпт! Это метод агрегации нескольких ответов:

Запускаешь один промпт несколько раз
Используешь temperature > 0 для разнообразия
Собираешь ответы и выбираешь самый частый

Шаг 1: Базовый промпт с CoT

Реши задачу пошагово:
{task}

Покажи рассуждения и дай ответ.

Обычный промпт с Chain-of-Thought. Ничего особенного пока что.

Шаг 2: Генерация нескольких ответов

Вызови LLM 3-5 раз с одним и тем же промптом, но с temperature > 0 (например, 0.7).

Каждый раз ты получишь разные рассуждения и возможно разные ответы. Это нормально!

Шаг 3: Агрегация (код)

from collections import Counter

responses = [call_llm(prompt, temp=0.7) for _ in range(5)]
answers = [extract_answer(r) for r in responses]
final_answer = Counter(answers).most_common(1)[0][0]

Используй Counter для подсчёта голосов. Самый частый ответ побеждает!

Пример конкретного промпта

Задача: Сколько будет 17 × 24?

Реши пошагово:
1. Разбей на простые операции
2. Вычисли каждую
3. Дай финальный ответ

Ответ:

Запусти этот промпт 5 раз с temp=0.7. Собери ответы. Выбери самый частый.

Итого:

Self-Consistency = обычный CoT промпт + множественные вызовы + голосование
Промпт НЕ меняется! Меняется только количество вызовов и агрегация
Temperature > 0 нужна для разнообразия ответов
Финальный ответ = самый популярный через простой подсчёт

Исследование

Техника описана в статье "Self-Consistency Improves Chain of Thought Reasoning in Language Models" (Wang et al., 2023). Показано улучшение на 1-12% на бенчмарках арифметики и здравого смысла по сравнению с единственным путём CoT.

Попробуй сам

Интерактивное демо этой техники

Сравнение техник

Демо режим

Предзаписанные ответы

ЗадачаСреднийМатематика

В корзине 23 яблока. Если раздать их поровну 5 детям, сколько яблок останется?

Без техники

Промпт

В корзине 23 яблока. Если раздать их поровну 5 детям, сколько яблок останется?

Ответ

23 ÷ 5 = 4.6, значит останется 3 яблока.

Токены:32/18

Время:320ms

Качество:

С Self-Consistency

С техникой

Промпт

Реши задачу тремя разными способами и выбери наиболее частый ответ. Задача: В корзине 23 яблока. Если раздать их поровну 5 детям, сколько яблок останется? Способ 1: Способ 2: Способ 3: Итоговый ответ (самый частый):

Ответ

Способ 1 (деление с остатком): 23 ÷ 5 = 4 остаток 3 Останется: 3 яблока

Способ 2 (вычитание): 5×4 = 20 яблок раздали 23 - 20 = 3 яблока осталось

Способ 3 (проверка): 5×4 + 3 = 23 ✓ Останется: 3 яблока

Итоговый ответ: 3 яблока (все три способа дали одинаковый результат)

🔢Способ 1: 23 ÷ 5 = 4 ост. 3

🔢Способ 2: 5×4=20, 23-20=3

🔍Способ 3: проверка 5×4+3=23 ✓

✅Все способы → 3. Ответ надёжен.

Токены:75/145

Время:780ms

Качество:

Почему это работает

Self-Consistency проверяет ответ несколькими способами. Когда все методы дают один результат, мы уверены в его правильности.

1 / 4

Практика

Создайте бесплатный аккаунт для решения челленджей

3 челленджей с AI-проверкой для этого урока

Связанные уроки:Chain Of Thought Chain Of Verification

Этот урок — часть структурированного курса по LLM.

Мой путь обучения

Урок 4

Self-Consistency — повышение точности голосованием

Голосование за лучший ответ

Решение: Спроси нескольких экспертов

Представьте это как консультацию у нескольких экспертов:

1. Эксперт 1: "Думаю, ответ 42, потому что..."
2. Эксперт 2: "Я получил 42 другим методом..."
3. Эксперт 3: "Мой подход даёт 38, вот почему..."
4. Консенсус: Двое из трёх говорят 42 — это наш ответ!

Где это используется?

Математические задачи: Сложные вычисления, где ошибки вероятны
Медицинская диагностика: Получение второго и третьего мнения
Ревью кода: Множественный анализ потенциальных багов
Важные решения: Любые задачи, где точность критична

Попробуйте сами!

Что такое Self-Consistency?

Как работает голосование

Стоимость vs Качество

Когда использовать

Self-Consistency — Голосование ответов

Выбери задачу:

Вопрос:

Одиночный CoT

Рассуждение:

Всего фруктов: 12 + 8 = 20. Продали 5, осталось 20 - 5 = 15. Апельсинов было 8, так что... примерно 6?

Ответ:

6 апельсинов

⚠️ Ошибка в рассуждении!

Self-Consistency

👆 Нажми "Сгенерировать 5 ответов" чтобы увидеть параллельные рассуждения

🔄 Как работает Self-Consistency:

1. Генерация

Создаём 5+ разных цепочек рассуждений с температурой > 0

2. Сбор ответов

Извлекаем финальный ответ из каждого пути

3. Голосование

Выбираем самый частый ответ (majority vote)

⚡ Когда использовать Self-Consistency:

Математические задачи с несколькими шагами
Задачи с логическими рассуждениями
Когда важна высокая точность (медицина, финансы)
Вопросы, где одна ошибка меняет весь ответ

Ключевая идея

Как использовать Self-Consistency

Self-Consistency — это НЕ особый промпт! Это метод агрегации нескольких ответов:

Запускаешь один промпт несколько раз
Используешь temperature > 0 для разнообразия
Собираешь ответы и выбираешь самый частый

Шаг 1: Базовый промпт с CoT

Реши задачу пошагово:
{task}

Покажи рассуждения и дай ответ.

Обычный промпт с Chain-of-Thought. Ничего особенного пока что.

Шаг 2: Генерация нескольких ответов

Вызови LLM 3-5 раз с одним и тем же промптом, но с temperature > 0 (например, 0.7).

Каждый раз ты получишь разные рассуждения и возможно разные ответы. Это нормально!

Шаг 3: Агрегация (код)

from collections import Counter

responses = [call_llm(prompt, temp=0.7) for _ in range(5)]
answers = [extract_answer(r) for r in responses]
final_answer = Counter(answers).most_common(1)[0][0]

Используй Counter для подсчёта голосов. Самый частый ответ побеждает!

Пример конкретного промпта

Задача: Сколько будет 17 × 24?

Реши пошагово:
1. Разбей на простые операции
2. Вычисли каждую
3. Дай финальный ответ

Ответ:

Запусти этот промпт 5 раз с temp=0.7. Собери ответы. Выбери самый частый.

Итого:

Self-Consistency = обычный CoT промпт + множественные вызовы + голосование
Промпт НЕ меняется! Меняется только количество вызовов и агрегация
Temperature > 0 нужна для разнообразия ответов
Финальный ответ = самый популярный через простой подсчёт

Исследование

Попробуй сам

Интерактивное демо этой техники

Сравнение техник

Демо режим

Предзаписанные ответы

ЗадачаСреднийМатематика

В корзине 23 яблока. Если раздать их поровну 5 детям, сколько яблок останется?

Без техники

Промпт

В корзине 23 яблока. Если раздать их поровну 5 детям, сколько яблок останется?

Ответ

23 ÷ 5 = 4.6, значит останется 3 яблока.

Токены:32/18

Время:320ms

Качество:

С Self-Consistency

С техникой

Промпт

Ответ

Способ 1 (деление с остатком): 23 ÷ 5 = 4 остаток 3 Останется: 3 яблока

Способ 2 (вычитание): 5×4 = 20 яблок раздали 23 - 20 = 3 яблока осталось

Способ 3 (проверка): 5×4 + 3 = 23 ✓ Останется: 3 яблока

Итоговый ответ: 3 яблока (все три способа дали одинаковый результат)

🔢Способ 1: 23 ÷ 5 = 4 ост. 3

🔢Способ 2: 5×4=20, 23-20=3

🔍Способ 3: проверка 5×4+3=23 ✓

✅Все способы → 3. Ответ надёжен.

Токены:75/145

Время:780ms

Качество:

Почему это работает

1 / 4

Практика

Создайте бесплатный аккаунт для решения челленджей

3 челленджей с AI-проверкой для этого урока

Связанные уроки:Chain Of Thought Chain Of Verification

Этот урок — часть структурированного курса по LLM.

Мой путь обучения