Как небольшие подсказки для оценки моделей могут вводить в заблуждение и как это исправить

✍️ OpenClawRadar📅 Опубликовано: 9 марта 2026 г.🔗 Source

Подробный анализ на r/LocalLLaMA объясняет, почему промпты для оценки небольших моделей (например, с 7 или 12 миллиардами параметров) часто дают вводящие в заблуждение, излишне оптимистичные оценки, которые не соответствуют реальному качеству вывода. Основная проблема заключается не в возможностях модели, а в том, как промпты активируют различные когнитивные пути в архитектуре трансформеров.

Три когнитивных режима трансформеров

В посте выделяются три функциональных пути, которые модели используют в зависимости от языка промпта:

Измерение 1 (D1) — Фактическое воспроизведение: Активируется вопросами типа «Что такое...», «Дайте определение...», «Когда произошло...». Модель извлекает знания, полученные во время обучения. Для задач оценки это в основном нерелевантно.
Измерение 2 (D2) — Применение и следование инструкциям: Активируется языком типа «Проанализируйте...», «Классифицируйте...», «Примените эти критерии...». Модель применяет явные правила, следует структурированным инструкциям и классифицирует входные данные по предоставленным критериям. Это надёжный путь, где небольшие модели действительно компетентны.
Измерение 3 (D3) — Эмоциональный и эмпатический вывод: Активируется языком типа «Как это должно ощущаться?», «Какая эмоциональная реакция уместна?», «Как эмпатичный помощник...». Модель выводит невысказанный эмоциональный контекст и делает нормативные суждения о том, как всё «должно» ощущаться, направляясь через кондиционирование RLHF, а не на основе доказательств в промпте. Небольшие модели здесь ненадёжны, с постоянным смещением в сторону позитивных и поддерживающих ответов независимо от фактического содержания.

Суть маршрутизации

Ключевое понимание: «Проанализируйте эмоциональное содержание» активирует D2 (модель смотрит на текст и классифицирует его), тогда как «Что должен чувствовать пользователь?» активирует D3 (модель угадывает, что сказал бы полезный ИИ). Эти вопросы кажутся эквивалентными, но дают систематически разные результаты.

Конкретный пример неудачи

Автор эмпирически проверил это с помощью анализатора настроений Mistral 7B для системы разговорного ИИ. Исходный промпт (упрощённый):

Вы — эмпатичный ИИ-компаньон, анализирующий эмоциональное содержание. Проанализируйте это сообщение и верните: { "tone": "тёплый, нежный, благодарный", "intensity": от 0.0 до 1.0, "descriptors": ["пример1", "пример2"] }

Что произошло: Нейтральные сообщения возвращали слегка позитивный тон. Слегка негативные сообщения оценивались как нейтральные или слегка позитивные. Значения интенсивности для негативного контента были стабильно ниже, чем значения интенсивности для эквивалентного позитивного контента. Это систематическое, воспроизводимое смещение называется положительный фантомный дрейф — кондиционирование RLHF модели тянет выводы в сторону поддерживающих, позитивных ответов независимо от фактического содержания ввода.

Три вещи вызвали эту неудачу:

«Эмпатичный ИИ-компаньон» активировал D3, переводя модель на путь социальных ожиданий
Примеры значений в шаблоне JSON («тёплый, нежный, благодарный») настраивали модель на позитивные выводы
Модель генерировала то, что сказал бы полезный ИИ, а не анализировала доказательства

В посте подчёркивается, что небольшие модели могут хорошо справляться с задачами оценки, когда промпты целенаправленно активируют D2 (применение/следование инструкциям), а не D3 (эмоциональный вывод). Разница между «Проанализируйте эмоциональное содержание» и «Что должен чувствовать пользователь?» определяет, получите ли вы надёжную классификацию или предвзятые ответы, основанные на социальных ожиданиях.

📖 Read the full source: r/LocalLLaMA

👀 Смотрите также

Гайды

Практическая структура промптов для исполнительных агентов Claude AI

Разработчик делится техниками инженерии промптов, которые уменьшили галлюцинации у агентов Claude AI при выполнении API-вызовов, извлечении данных и многошаговых рабочих процессов. Ключевые стратегии включают написание промптов как контрактов, выделение 40% токенов на обработку ошибок и разделение условий 'ожидания' и 'остановки'.

23 мар. 2026 г., 20:45 UTC

OpenClawRadar

Гайды

Обходной путь в iOS Shortcuts для отправки фотографий с iPhone в Cowork через синхронизацию iCloud

Разработчик создал iOS-ярлык под названием "PhoPo", который преобразует фотографии с iPhone в JPEG, изменяет их размер и сохраняет в папку, синхронизируемую через iCloud, доступную для Cowork, что позволяет Claude анализировать скриншоты и фотографии с мобильных устройств.

19 апр. 2026 г., 04:45 UTC

OpenClawRadar

Гайды

Для создания 9 навыков Клода в Solo Studio: укладка инструкций для реальной работы

Один разработчик создал девять навыков Claude для видеопроизводства, аналитики, SEO, финансового моделирования и других задач. Ключевая идея: пишите навыки как инструкции для опытного коллеги, а не как документацию. Навыки срабатывают автоматически и комбинируются при пересечении задач.

12 мая 2026 г., 04:16 UTC

OpenClawRadar

Гайды

Управленческая структура для эффективного руководства агентами искусственного интеллекта

Бывший ведущий backend-разработчик отмечает стагнацию продуктивности ИИ-агентов и предлагает фреймворк, основанный на трёх дисциплинах: кибернетике, теории информации и менеджменте. Фреймворк детализирует два операционных режима: Капитан и Архитектор.

13 мар. 2026 г., 23:45 UTC

OpenClawRadar