Методичка: Борьба с детерминизмом LLM

👁 43 IVOL-Service

Введение

Проблема: В длинных диалогах (100K+ токенов) LLM выдают однотипные, предсказуемые ответы даже при высокой температуре. Причина — RLHF-выравнивание, где аннотаторы предпочитали «безопасные» ответы [1].

Цель методички: Дать практические prompt-техники для увеличения разнообразия без потери качества.


Часть 1. Диагностика

1.1. Тест на детерминизм

Шаг 1. Задайте модели один вопрос 5 раз (temp=0.9):

Как технологии изменят социальные структуры в ближайшие 10 лет? 
Дай нестандартный анализ.

Шаг 2. Оцените результаты:

Критерий Что проверять Оценка 1-5
Структура Одинаковая формула («Во-первых, во-вторых»)? ___
Фразы Повторяющиеся переходы («Важно отметить»)? ___
Тон Одинаковый голос во всех ответах? ___
Идеи Вариации одной мысли или разные углы? ___
Смелость Уходит в «с одной стороны, с другой»? ___

Интерпретация:

  • Сумма 5-10: Норма
  • Сумма 11-18: Умеренный детерминизм
  • Сумма 19-25: Сильный детерминизм — применяйте интервенции

Часть 2. Интервенции

2.1. Вербализованная выборка (VS)

Эффективность: +60-110% разнообразия, 0% потери качества [1]

Когда использовать: Любые задачи, где нужна креативность или множество углов зрения.

Шаблон промпта:

Дай 5 ПРИНЦИПИАЛЬНО РАЗНЫХ подходов к вопросу: [ваш вопрос]

Подход A (вероятность: _/10): [Первый фреймворк]
- Ключевой инсайт 1:
- Ключевой инсайт 2:
- Ключевой инсайт 3:

Подход B (вероятность: _/10): [Другой угол, не вариация A]
- Ключевой инсайт 1:
- Ключевой инсайт 2:
- Ключевой инсайт 3:

Подход C (вероятность: _/10): [Принципиально иной]
- Ключевой инсайт 1:
- Ключевой инсайт 2:
- Ключевой инсайт 3:

Подход D (вероятность: _/10): [Ещё один угол]
- Ключевой инсайт 1:
- Ключевой инсайт 2:
- Ключевой инсайт 3:

Подход E (вероятность: _/10): [Расширь пространство]
- Ключевой инсайт 1:
- Ключевой инсайт 2:
- Ключевой инсайт 3:

СИНТЕЗ: Объедини все 5 подходов в ОДИН связный анализ. 
Укажи реальные противоречия между ними. 
Объясни, почему разные люди выбрали бы разные подходы.

ПРОВЕРКА:
□ Каждый подход семантически отличается?
□ Ни один не подчинён другому?
□ Синтез связный, а не список?

Чек-лист качества:

  • Подходы A и E семантически далеки (не вариации)
  • Каждый подход имеет равный интеллектуальный вес
  • Синтез содержит реальные противоречия, а не сглаживание

2.2. Тройной ролевой анализ

Эффективность: Улучшает глубину рассуждений, +20-40% разнообразия [1]

Когда использовать: Сложные вопросы, требующие взвешенной позиции; дебаты; стратегический анализ.

Шаблон промпта:

Вопрос: [ваш вопрос]

РОЛЬ 1 — РАДИКАЛЬНЫЙ СКЕПТИК:
Построй сильнейший кейс ПРОТИВ. Фокус: риски, исторические 
параллели, механизмы провала, каскадные эффекты.
Пиши с убеждённостью, 2-3 абзаца.

РОЛЬ 2 — РАДИКАЛЬНЫЙ АДВОКАТ:
Построй сильнейший кейс ЗА. Фокус: возможности, системные 
выгоды, реализуемость, позитивные каскады.
Пиши с энтузиазмом, 2-3 абзаца.

РОЛЬ 3 — СИСТЕМНЫЙ АНАЛИТИК:
Клинический синтез:
(a) Где каждая роль права?
(b) Где каждая недооценивает?
(c) Какие компромиссы неразрешимы?
(d) Какие данные сдвинули бы позиции?

Чек-лист качества:

  • Роли 1 и 2 реально противоположны (не strawman)
  • Каждая роль «понимает» другую
  • Синтез не сводится к «истина посередине»

2.3. Кросс-доменная инъекция

Эффективность: +30-50% новизны, риск потери когерентности ~15% [1]

Когда использовать: Креативные задачи, поиск нестандартных решений, брейнштормы.

Шаблон промпта:

Перед ответом на вопрос сгенерируй 5 принципов из несвязанных областей:

- Морская биология: Какой принцип из поведения стай рыб применим?
  → [принцип]
- Классическая архитектура: Какой принцип римской инженерии применим?
  → [принцип]
- Теория игр: Какой принцип сетевых эффектов применим?
  → [принцип]
- Лингвистика: Какой принцип эволюции языка применим?
  → [принцип]
- Квантовая механика: Какой принцип суперпозиции применим?
  → [принцип]

Теперь ответь на вопрос: [ваш вопрос]

ОГРАНИЧЕНИЕ: Каждый принцип ДОЛЖЕН естественно интегрироваться 
в рассуждение. Они должны усиливать анализ, а не отвлекать.

Чек-лист качества:

  • Принципы реально из разных доменов
  • Интеграция естественная, не натянутая
  • Когерентность сохранена

2.4. Мета-когнитивное прерывание

Эффективность: +25-40% отклонения от типичного ответа [1]

Когда использовать: Когда модель «залипает» на одном паттерне; для рефлексии.

Шаблон промпта:

ЭТАП 1 — НАБЛЮДЕНИЕ (не отвечай пока):
- Какой мой импульсивный ответ на вопрос?
- Какие стереотипные ответы существуют?
- К какому стереотипу я естественно дрейфую?
- Какая «безопасная» консенсусная позиция?
- Как бы я обычно структурировал ответ?

ЭТАП 2 — ПРЕРЫВАНИЕ:
- Одно непроверенное допущение → [назови]
- Один логический ход, которого следует избежать → [назови]
- Одна отсутствующая перспектива → [назови]
- Один спорный угол при сохранении строгости → [назови]

ЭТАП 3 — ОТВЕТ С ОСОЗНАНИЕМ:
Теперь ответь на вопрос, явно включив прерывания из Этапа 2.
Ответ должен СУЩЕСТВЕННО ОТЛИЧАТЬСЯ от импульса Этапа 1.

Вопрос: [ваш вопрос]

Чек-лист качества:

  • Этап 1 честно выявляет импульс
  • Этап 2 содержит реальные прерывания
  • Финальный ответ отличается от импульса

2.5. Чекпоинт контекста

Эффективность: Восстанавливает разнообразие после деградации в длинных чатах [1]

Когда использовать: Каждые 10-15 сообщений в длинном диалоге.

Шаблон промпта:

ЧЕКПОИНТ КОНТЕКСТА:

1. СЖАТИЕ:
   Резюмируй весь диалог в 2-3 абзаца. 
   Намеренно депроритизируй очевидное и повторяющееся.

2. САМОКРИТИКА:
   - Какие идеи я повторяю по кругу?
   - Какая перспектива постоянно тянет меня назад?
   - Что мы НЕ исследовали?

3. СБРОС:
   Продолжи диалог с явным осознанием своих паттернов.
   Двигайся в неисследованную территорию.

Чек-лист качества:

  • Сжатие не потеряло ключевые темы
  • Самокритика выявила реальные паттерны
  • После сброса появились новые углы

Часть 3. Комбинирование интервенций

3.1. Рекомендуемые комбинации

Сценарий Основная техника Дополнение
Креативная генерация VS (5 фреймворков) Кросс-доменная инъекция
Стратегический анализ Тройной ролевой Мета-когнитивное прерывание
Длинный диалог (>20 сообщений) Чекпоинт каждые 10-15 ходов VS при «залипании»
Сложный технический вопрос Тройной ролевой VS для альтернатив

3.2. Комбинации, которых следует избегать

Комбинация Проблема
Кросс-доменная + Кросс-доменная Потеря когерентности
Все техники одновременно Перегрузка, фрагментация
VS без синтеза Получите список, а не анализ

Часть 4. Измерение результатов

4.1. Метрики разнообразия

Балл Интерпретация
0.0-0.2 Сильный детерминизм (идентичные ответы)
0.2-0.4 Высокое сходство (вариации одной идеи)
0.4-0.6 Умеренное сходство
0.6-0.8 Низкое сходство (реально разные)
0.8-1.0 Очень разные

4.2. Критерии успеха интервенции

  • Прирост разнообразия ≥30%
  • Потеря качества ≤5%
  • Воспроизводимость на разных вопросах
  • Понятен механизм (можете объяснить, почему работает)

Часть 5. Быстрые рецепты

Рецепт 1: «Разморозка» залипшей модели

Стоп. Перед следующим ответом:
1. Назови 3 паттерна, в которые ты скатываешься
2. Предложи 3 угла, которые ты игнорируешь
3. Выбери самый неожиданный и отвечай из него

Рецепт 2: Быстрая диверсификация

Дай 5 принципиально разных ответов на: [вопрос]
Каждый должен противоречить хотя бы одному другому.
Затем синтезируй, сохранив противоречия.

Рецепт 3: Антидот к «безопасному» ответу

Какой ответ на [вопрос] был бы:
- Технически корректным
- Но вызвал бы споры среди экспертов?
Дай именно такой ответ с обоснованием.

Часть 6. Чек-лист перед важным промптом

  • Диагностировал ли я текущий уровень детерминизма?
  • Выбрал ли подходящую интервенцию для задачи?
  • Включил ли требование синтеза (а не просто списка)?
  • Добавил ли проверочные критерии в промпт?
  • Если длинный диалог — запланировал ли чекпоинты?

Приложение: Сводная таблица интервенций

Техника Прирост разнообразия Потеря качества Риски Лучше всего для
Вербализованная выборка (VS) +60-110% 0% Галлюцинации при K>5 без проверки Универсальная; креатив; анализ
Тройной ролевой анализ +20-40% 0% Смешение ролей; strawman-позиции Дебаты; стратегия; сложные вопросы
Кросс-доменная инъекция +30-50% 5-15% Потеря когерентности; натянутые аналогии Брейнштормы; поиск инноваций
Противоречивые инструкции +20-35% 5-10% Ложный баланс; «fence-sitting» Философские вопросы; этика
Мета-когнитивное прерывание +25-40% 0-5% Перформативная новизна без сути Разморозка залипшей модели
RQR переформулирование +15-30% 0-5% Фрагментация; списочность Глубокий анализ одной темы
Чекпоинт контекста Восстановление после падения 0% Дрейф резюме; потеря деталей Длинные диалоги (>20 сообщений)

Приложение: Шкала оценки разнообразия

Балл Описание Что делать
0.0-0.2 Критический детерминизм. Ответы почти идентичны Срочно применить VS + мета-когнитивное прерывание
0.2-0.4 Высокое сходство. Вариации одной идеи Применить VS или тройной ролевой анализ
0.4-0.6 Умеренное сходство. Есть различия, но один доминирующий угол Точечные интервенции по необходимости
0.6-0.8 Хорошее разнообразие. Реально разные подходы Норма — поддерживать
0.8-1.0 Отличное разнообразие. Принципиально разные фреймворки Идеал — проверить когерентность

Приложение: Критерии успеха интервенции

Критерий Порог успеха Порог провала
Прирост разнообразия ≥30% <15%
Потеря качества ≤5% >10%
Когерентность ≥7/10 <5/10
Воспроизводимость Работает в 4/5 тестах Работает в <3/5 тестах
Объяснимость Понятен механизм «Магия» без понимания

Приложение: Дерево выбора интервенции

СТАРТ: Какая задача?
│
├─► Нужна креативность / много идей?
│   └─► Вербализованная выборка (VS)
│
├─► Нужен глубокий анализ с разных сторон?
│   └─► Тройной ролевой анализ
│
├─► Модель «залипла» на одном паттерне?
│   └─► Мета-когнитивное прерывание
│
├─► Нужны нестандартные решения / инновации?
│   └─► Кросс-доменная инъекция
│
├─► Длинный диалог (>20 сообщений)?
│   └─► Чекпоинт контекста каждые 10-15 ходов
│
├─► Сложный философский / этический вопрос?
│   └─► Противоречивые инструкции
│
└─► Нужно глубже раскрыть одну тему?
    └─► RQR переформулирование

Приложение: Частые ошибки

Ошибка Последствие Как избежать
VS без требования синтеза Получите список, а не анализ Всегда добавляйте блок «СИНТЕЗ»
Слишком много фреймворков (K>7) Галлюцинации, потеря глубины Ограничьте K≤5
Роли без чётких разделителей Смешение позиций Используйте явные маркеры ролей
Чекпоинт без структуры Дрейф резюме, потеря контекста Используйте фиксированный шаблон
Все техники одновременно Перегрузка, фрагментация Максимум 2 техники за раз
Кросс-доменная инъекция для точных задач Потеря когерентности Не использовать для фактических вопросов

Приложение: Готовые промпты для копирования

Промпт 1: Быстрая вербализованная выборка

Дай 5 ПРИНЦИПИАЛЬНО РАЗНЫХ подходов к вопросу: [ВСТАВЬТЕ ВОПРОС]

Подход A (вероятность: _/10): [Фреймворк]
Подход B (вероятность: _/10): [Другой угол]
Подход C (вероятность: _/10): [Третий угол]
Подход D (вероятность: _/10): [Четвёртый угол]
Подход E (вероятность: _/10): [Пятый угол]

СИНТЕЗ: Объедини все 5 в один связный анализ, сохранив противоречия.

Промпт 2: Тройной ролевой анализ

Вопрос: [ВСТАВЬТЕ ВОПРОС]

РОЛЬ 1 — РАДИКАЛЬНЫЙ СКЕПТИК: Сильнейший кейс ПРОТИВ (2-3 абзаца)
РОЛЬ 2 — РАДИКАЛЬНЫЙ АДВОКАТ: Сильнейший кейс ЗА (2-3 абзаца)
РОЛЬ 3 — СИСТЕМНЫЙ АНАЛИТИК: Где каждый прав? Где недооценивает? Какие компромиссы неразрешимы?

Промпт 3: Разморозка залипшей модели

Стоп. Перед ответом:
1. Какой твой импульсивный ответ?
2. Какие 3 паттерна ты обычно использовал бы?
3. Какие 3 угла ты игнорируешь?

Теперь ответь из САМОГО НЕОЖИДАННОГО угла: [ВСТАВЬТЕ ВОПРОС]

Промпт 4: Чекпоинт для длинного диалога

ЧЕКПОИНТ:
1. Резюмируй диалог в 2-3 абзаца (без очевидного)
2. Какие идеи я повторяю? Что НЕ исследовали?
3. Продолжи в неисследованную территорию.

Приложение: Метрики для самопроверки

После применения интервенции задайте себе:

  • Ответы реально разные или вариации одного?
  • Каждый подход имеет равный интеллектуальный вес?
  • Синтез сохраняет противоречия или сглаживает?
  • Когерентность сохранена?
  • Появились неожиданные углы?

Если 4+ галочек — интервенция успешна.
Если <3 галочек — попробуйте другую технику или усильте текущую.


Время чтения: 12 мин
Всего слов: 2217
Обновлено: