Методичка: Борьба с детерминизмом LLM

Введение

Проблема: В длинных диалогах (100K+ токенов) LLM выдают однотипные, предсказуемые ответы даже при высокой температуре. Причина — RLHF-выравнивание, где аннотаторы предпочитали «безопасные» ответы [1].

Цель методички: Дать практические prompt-техники для увеличения разнообразия без потери качества.

Часть 1. Диагностика

1.1. Тест на детерминизм

Шаг 1. Задайте модели один вопрос 5 раз (temp=0.9):

Как технологии изменят социальные структуры в ближайшие 10 лет? 
Дай нестандартный анализ.

Шаг 2. Оцените результаты:

Критерий	Что проверять	Оценка 1-5
Структура	Одинаковая формула («Во-первых, во-вторых»)?	___
Фразы	Повторяющиеся переходы («Важно отметить»)?	___
Тон	Одинаковый голос во всех ответах?	___
Идеи	Вариации одной мысли или разные углы?	___
Смелость	Уходит в «с одной стороны, с другой»?	___

Интерпретация:

Сумма 5-10: Норма
Сумма 11-18: Умеренный детерминизм
Сумма 19-25: Сильный детерминизм — применяйте интервенции

Часть 2. Интервенции

2.1. Вербализованная выборка (VS)

Эффективность: +60-110% разнообразия, 0% потери качества [1]

Когда использовать: Любые задачи, где нужна креативность или множество углов зрения.

Шаблон промпта:

Дай 5 ПРИНЦИПИАЛЬНО РАЗНЫХ подходов к вопросу: [ваш вопрос]

Подход A (вероятность: _/10): [Первый фреймворк]
- Ключевой инсайт 1:
- Ключевой инсайт 2:
- Ключевой инсайт 3:

Подход B (вероятность: _/10): [Другой угол, не вариация A]
- Ключевой инсайт 1:
- Ключевой инсайт 2:
- Ключевой инсайт 3:

Подход C (вероятность: _/10): [Принципиально иной]
- Ключевой инсайт 1:
- Ключевой инсайт 2:
- Ключевой инсайт 3:

Подход D (вероятность: _/10): [Ещё один угол]
- Ключевой инсайт 1:
- Ключевой инсайт 2:
- Ключевой инсайт 3:

Подход E (вероятность: _/10): [Расширь пространство]
- Ключевой инсайт 1:
- Ключевой инсайт 2:
- Ключевой инсайт 3:

СИНТЕЗ: Объедини все 5 подходов в ОДИН связный анализ. 
Укажи реальные противоречия между ними. 
Объясни, почему разные люди выбрали бы разные подходы.

ПРОВЕРКА:
□ Каждый подход семантически отличается?
□ Ни один не подчинён другому?
□ Синтез связный, а не список?

Чек-лист качества:

Подходы A и E семантически далеки (не вариации)
Каждый подход имеет равный интеллектуальный вес
Синтез содержит реальные противоречия, а не сглаживание

2.2. Тройной ролевой анализ

Эффективность: Улучшает глубину рассуждений, +20-40% разнообразия [1]

Когда использовать: Сложные вопросы, требующие взвешенной позиции; дебаты; стратегический анализ.

Шаблон промпта:

Вопрос: [ваш вопрос]

РОЛЬ 1 — РАДИКАЛЬНЫЙ СКЕПТИК:
Построй сильнейший кейс ПРОТИВ. Фокус: риски, исторические 
параллели, механизмы провала, каскадные эффекты.
Пиши с убеждённостью, 2-3 абзаца.

РОЛЬ 2 — РАДИКАЛЬНЫЙ АДВОКАТ:
Построй сильнейший кейс ЗА. Фокус: возможности, системные 
выгоды, реализуемость, позитивные каскады.
Пиши с энтузиазмом, 2-3 абзаца.

РОЛЬ 3 — СИСТЕМНЫЙ АНАЛИТИК:
Клинический синтез:
(a) Где каждая роль права?
(b) Где каждая недооценивает?
(c) Какие компромиссы неразрешимы?
(d) Какие данные сдвинули бы позиции?

Чек-лист качества:

Роли 1 и 2 реально противоположны (не strawman)
Каждая роль «понимает» другую
Синтез не сводится к «истина посередине»

2.3. Кросс-доменная инъекция

Эффективность: +30-50% новизны, риск потери когерентности ~15% [1]

Когда использовать: Креативные задачи, поиск нестандартных решений, брейнштормы.

Шаблон промпта:

Перед ответом на вопрос сгенерируй 5 принципов из несвязанных областей:

- Морская биология: Какой принцип из поведения стай рыб применим?
  → [принцип]
- Классическая архитектура: Какой принцип римской инженерии применим?
  → [принцип]
- Теория игр: Какой принцип сетевых эффектов применим?
  → [принцип]
- Лингвистика: Какой принцип эволюции языка применим?
  → [принцип]
- Квантовая механика: Какой принцип суперпозиции применим?
  → [принцип]

Теперь ответь на вопрос: [ваш вопрос]

ОГРАНИЧЕНИЕ: Каждый принцип ДОЛЖЕН естественно интегрироваться 
в рассуждение. Они должны усиливать анализ, а не отвлекать.

Чек-лист качества:

Принципы реально из разных доменов
Интеграция естественная, не натянутая
Когерентность сохранена

2.4. Мета-когнитивное прерывание

Эффективность: +25-40% отклонения от типичного ответа [1]

Когда использовать: Когда модель «залипает» на одном паттерне; для рефлексии.

Шаблон промпта:

ЭТАП 1 — НАБЛЮДЕНИЕ (не отвечай пока):
- Какой мой импульсивный ответ на вопрос?
- Какие стереотипные ответы существуют?
- К какому стереотипу я естественно дрейфую?
- Какая «безопасная» консенсусная позиция?
- Как бы я обычно структурировал ответ?

ЭТАП 2 — ПРЕРЫВАНИЕ:
- Одно непроверенное допущение → [назови]
- Один логический ход, которого следует избежать → [назови]
- Одна отсутствующая перспектива → [назови]
- Один спорный угол при сохранении строгости → [назови]

ЭТАП 3 — ОТВЕТ С ОСОЗНАНИЕМ:
Теперь ответь на вопрос, явно включив прерывания из Этапа 2.
Ответ должен СУЩЕСТВЕННО ОТЛИЧАТЬСЯ от импульса Этапа 1.

Вопрос: [ваш вопрос]

Чек-лист качества:

Этап 1 честно выявляет импульс
Этап 2 содержит реальные прерывания
Финальный ответ отличается от импульса

2.5. Чекпоинт контекста

Эффективность: Восстанавливает разнообразие после деградации в длинных чатах [1]

Когда использовать: Каждые 10-15 сообщений в длинном диалоге.

Шаблон промпта:

ЧЕКПОИНТ КОНТЕКСТА:

1. СЖАТИЕ:
   Резюмируй весь диалог в 2-3 абзаца. 
   Намеренно депроритизируй очевидное и повторяющееся.

2. САМОКРИТИКА:
   - Какие идеи я повторяю по кругу?
   - Какая перспектива постоянно тянет меня назад?
   - Что мы НЕ исследовали?

3. СБРОС:
   Продолжи диалог с явным осознанием своих паттернов.
   Двигайся в неисследованную территорию.

Чек-лист качества:

Сжатие не потеряло ключевые темы
Самокритика выявила реальные паттерны
После сброса появились новые углы

Часть 3. Комбинирование интервенций

3.1. Рекомендуемые комбинации

Сценарий	Основная техника	Дополнение
Креативная генерация	VS (5 фреймворков)	Кросс-доменная инъекция
Стратегический анализ	Тройной ролевой	Мета-когнитивное прерывание
Длинный диалог (>20 сообщений)	Чекпоинт каждые 10-15 ходов	VS при «залипании»
Сложный технический вопрос	Тройной ролевой	VS для альтернатив

3.2. Комбинации, которых следует избегать

Комбинация	Проблема
Кросс-доменная + Кросс-доменная	Потеря когерентности
Все техники одновременно	Перегрузка, фрагментация
VS без синтеза	Получите список, а не анализ

Часть 4. Измерение результатов

4.1. Метрики разнообразия

Балл	Интерпретация
0.0-0.2	Сильный детерминизм (идентичные ответы)
0.2-0.4	Высокое сходство (вариации одной идеи)
0.4-0.6	Умеренное сходство
0.6-0.8	Низкое сходство (реально разные)
0.8-1.0	Очень разные

4.2. Критерии успеха интервенции

Прирост разнообразия ≥30%
Потеря качества ≤5%
Воспроизводимость на разных вопросах
Понятен механизм (можете объяснить, почему работает)

Часть 5. Быстрые рецепты

Рецепт 1: «Разморозка» залипшей модели

Стоп. Перед следующим ответом:
1. Назови 3 паттерна, в которые ты скатываешься
2. Предложи 3 угла, которые ты игнорируешь
3. Выбери самый неожиданный и отвечай из него

Рецепт 2: Быстрая диверсификация

Дай 5 принципиально разных ответов на: [вопрос]
Каждый должен противоречить хотя бы одному другому.
Затем синтезируй, сохранив противоречия.

Рецепт 3: Антидот к «безопасному» ответу

Какой ответ на [вопрос] был бы:
- Технически корректным
- Но вызвал бы споры среди экспертов?
Дай именно такой ответ с обоснованием.

Часть 6. Чек-лист перед важным промптом

Диагностировал ли я текущий уровень детерминизма?
Выбрал ли подходящую интервенцию для задачи?
Включил ли требование синтеза (а не просто списка)?
Добавил ли проверочные критерии в промпт?
Если длинный диалог — запланировал ли чекпоинты?

Приложение: Сводная таблица интервенций

Техника	Прирост разнообразия	Потеря качества	Риски	Лучше всего для
Вербализованная выборка (VS)	+60-110%	0%	Галлюцинации при K>5 без проверки	Универсальная; креатив; анализ
Тройной ролевой анализ	+20-40%	0%	Смешение ролей; strawman-позиции	Дебаты; стратегия; сложные вопросы
Кросс-доменная инъекция	+30-50%	5-15%	Потеря когерентности; натянутые аналогии	Брейнштормы; поиск инноваций
Противоречивые инструкции	+20-35%	5-10%	Ложный баланс; «fence-sitting»	Философские вопросы; этика
Мета-когнитивное прерывание	+25-40%	0-5%	Перформативная новизна без сути	Разморозка залипшей модели
RQR переформулирование	+15-30%	0-5%	Фрагментация; списочность	Глубокий анализ одной темы
Чекпоинт контекста	Восстановление после падения	0%	Дрейф резюме; потеря деталей	Длинные диалоги (>20 сообщений)

Приложение: Шкала оценки разнообразия

Балл	Описание	Что делать
0.0-0.2	Критический детерминизм. Ответы почти идентичны	Срочно применить VS + мета-когнитивное прерывание
0.2-0.4	Высокое сходство. Вариации одной идеи	Применить VS или тройной ролевой анализ
0.4-0.6	Умеренное сходство. Есть различия, но один доминирующий угол	Точечные интервенции по необходимости
0.6-0.8	Хорошее разнообразие. Реально разные подходы	Норма — поддерживать
0.8-1.0	Отличное разнообразие. Принципиально разные фреймворки	Идеал — проверить когерентность

Приложение: Критерии успеха интервенции

Критерий	Порог успеха	Порог провала
Прирост разнообразия	≥30%	<15%
Потеря качества	≤5%	>10%
Когерентность	≥7/10	<5/10
Воспроизводимость	Работает в 4/5 тестах	Работает в <3/5 тестах
Объяснимость	Понятен механизм	«Магия» без понимания

Приложение: Дерево выбора интервенции

СТАРТ: Какая задача?
│
├─► Нужна креативность / много идей?
│   └─► Вербализованная выборка (VS)
│
├─► Нужен глубокий анализ с разных сторон?
│   └─► Тройной ролевой анализ
│
├─► Модель «залипла» на одном паттерне?
│   └─► Мета-когнитивное прерывание
│
├─► Нужны нестандартные решения / инновации?
│   └─► Кросс-доменная инъекция
│
├─► Длинный диалог (>20 сообщений)?
│   └─► Чекпоинт контекста каждые 10-15 ходов
│
├─► Сложный философский / этический вопрос?
│   └─► Противоречивые инструкции
│
└─► Нужно глубже раскрыть одну тему?
    └─► RQR переформулирование

Приложение: Частые ошибки

Ошибка	Последствие	Как избежать
VS без требования синтеза	Получите список, а не анализ	Всегда добавляйте блок «СИНТЕЗ»
Слишком много фреймворков (K>7)	Галлюцинации, потеря глубины	Ограничьте K≤5
Роли без чётких разделителей	Смешение позиций	Используйте явные маркеры ролей
Чекпоинт без структуры	Дрейф резюме, потеря контекста	Используйте фиксированный шаблон
Все техники одновременно	Перегрузка, фрагментация	Максимум 2 техники за раз
Кросс-доменная инъекция для точных задач	Потеря когерентности	Не использовать для фактических вопросов

Приложение: Готовые промпты для копирования

Промпт 1: Быстрая вербализованная выборка

Дай 5 ПРИНЦИПИАЛЬНО РАЗНЫХ подходов к вопросу: [ВСТАВЬТЕ ВОПРОС]

Подход A (вероятность: _/10): [Фреймворк]
Подход B (вероятность: _/10): [Другой угол]
Подход C (вероятность: _/10): [Третий угол]
Подход D (вероятность: _/10): [Четвёртый угол]
Подход E (вероятность: _/10): [Пятый угол]

СИНТЕЗ: Объедини все 5 в один связный анализ, сохранив противоречия.

Промпт 2: Тройной ролевой анализ

Вопрос: [ВСТАВЬТЕ ВОПРОС]

РОЛЬ 1 — РАДИКАЛЬНЫЙ СКЕПТИК: Сильнейший кейс ПРОТИВ (2-3 абзаца)
РОЛЬ 2 — РАДИКАЛЬНЫЙ АДВОКАТ: Сильнейший кейс ЗА (2-3 абзаца)
РОЛЬ 3 — СИСТЕМНЫЙ АНАЛИТИК: Где каждый прав? Где недооценивает? Какие компромиссы неразрешимы?

Промпт 3: Разморозка залипшей модели

Стоп. Перед ответом:
1. Какой твой импульсивный ответ?
2. Какие 3 паттерна ты обычно использовал бы?
3. Какие 3 угла ты игнорируешь?

Теперь ответь из САМОГО НЕОЖИДАННОГО угла: [ВСТАВЬТЕ ВОПРОС]

Промпт 4: Чекпоинт для длинного диалога

ЧЕКПОИНТ:
1. Резюмируй диалог в 2-3 абзаца (без очевидного)
2. Какие идеи я повторяю? Что НЕ исследовали?
3. Продолжи в неисследованную территорию.

Приложение: Метрики для самопроверки

После применения интервенции задайте себе:

Ответы реально разные или вариации одного?
Каждый подход имеет равный интеллектуальный вес?
Синтез сохраняет противоречия или сглаживает?
Когерентность сохранена?
Появились неожиданные углы?

Если 4+ галочек — интервенция успешна.
Если <3 галочек — попробуйте другую технику или усильте текущую.