Как небольшие подсказки для оценки моделей могут вводить в заблуждение и как это исправить

✍️ OpenClawRadar📅 Опубликовано: 9 марта 2026 г.🔗 Source
Как небольшие подсказки для оценки моделей могут вводить в заблуждение и как это исправить
Ad

Подробный анализ на r/LocalLLaMA объясняет, почему промпты для оценки небольших моделей (например, с 7 или 12 миллиардами параметров) часто дают вводящие в заблуждение, излишне оптимистичные оценки, которые не соответствуют реальному качеству вывода. Основная проблема заключается не в возможностях модели, а в том, как промпты активируют различные когнитивные пути в архитектуре трансформеров.

Три когнитивных режима трансформеров

В посте выделяются три функциональных пути, которые модели используют в зависимости от языка промпта:

  • Измерение 1 (D1) — Фактическое воспроизведение: Активируется вопросами типа «Что такое...», «Дайте определение...», «Когда произошло...». Модель извлекает знания, полученные во время обучения. Для задач оценки это в основном нерелевантно.
  • Измерение 2 (D2) — Применение и следование инструкциям: Активируется языком типа «Проанализируйте...», «Классифицируйте...», «Примените эти критерии...». Модель применяет явные правила, следует структурированным инструкциям и классифицирует входные данные по предоставленным критериям. Это надёжный путь, где небольшие модели действительно компетентны.
  • Измерение 3 (D3) — Эмоциональный и эмпатический вывод: Активируется языком типа «Как это должно ощущаться?», «Какая эмоциональная реакция уместна?», «Как эмпатичный помощник...». Модель выводит невысказанный эмоциональный контекст и делает нормативные суждения о том, как всё «должно» ощущаться, направляясь через кондиционирование RLHF, а не на основе доказательств в промпте. Небольшие модели здесь ненадёжны, с постоянным смещением в сторону позитивных и поддерживающих ответов независимо от фактического содержания.

Суть маршрутизации

Ключевое понимание: «Проанализируйте эмоциональное содержание» активирует D2 (модель смотрит на текст и классифицирует его), тогда как «Что должен чувствовать пользователь?» активирует D3 (модель угадывает, что сказал бы полезный ИИ). Эти вопросы кажутся эквивалентными, но дают систематически разные результаты.

Ad

Конкретный пример неудачи

Автор эмпирически проверил это с помощью анализатора настроений Mistral 7B для системы разговорного ИИ. Исходный промпт (упрощённый):

Вы — эмпатичный ИИ-компаньон, анализирующий эмоциональное содержание. Проанализируйте это сообщение и верните: { "tone": "тёплый, нежный, благодарный", "intensity": от 0.0 до 1.0, "descriptors": ["пример1", "пример2"] }

Что произошло: Нейтральные сообщения возвращали слегка позитивный тон. Слегка негативные сообщения оценивались как нейтральные или слегка позитивные. Значения интенсивности для негативного контента были стабильно ниже, чем значения интенсивности для эквивалентного позитивного контента. Это систематическое, воспроизводимое смещение называется положительный фантомный дрейф — кондиционирование RLHF модели тянет выводы в сторону поддерживающих, позитивных ответов независимо от фактического содержания ввода.

Три вещи вызвали эту неудачу:

  • «Эмпатичный ИИ-компаньон» активировал D3, переводя модель на путь социальных ожиданий
  • Примеры значений в шаблоне JSON («тёплый, нежный, благодарный») настраивали модель на позитивные выводы
  • Модель генерировала то, что сказал бы полезный ИИ, а не анализировала доказательства

В посте подчёркивается, что небольшие модели могут хорошо справляться с задачами оценки, когда промпты целенаправленно активируют D2 (применение/следование инструкциям), а не D3 (эмоциональный вывод). Разница между «Проанализируйте эмоциональное содержание» и «Что должен чувствовать пользователь?» определяет, получите ли вы надёжную классификацию или предвзятые ответы, основанные на социальных ожиданиях.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Смотрите также

Создание локальной системы финансовых данных + персонального ИИ на Mac Studio
Гайды

Создание локальной системы финансовых данных + персонального ИИ на Mac Studio

Разработчик делится опытом создания полностью локализованной системы обработки финансовых данных и персонального ИИ-ассистента на Mac Studio, включая архитектурные решения, разделение памяти, оркестрацию cron и первую оптимизацию.

OpenClawRadar
Исправление ошибок Claude Cowork «Не удалось запустить рабочее пространство» в Windows 11 Home
Гайды

Исправление ошибок Claude Cowork «Не удалось запустить рабочее пространство» в Windows 11 Home

Пользователь решил ошибки запуска Claude Cowork в Windows 11 Home, установив Windows Subsystem for Linux (WSL2) из Microsoft Store, что необходимо для базовой технологии виртуальных машин.

OpenClawRadar
Результаты тестирования плагина памяти OpenClaw и рекомендуемый стек
Гайды

Результаты тестирования плагина памяти OpenClaw и рекомендуемый стек

Пользователь Reddit протестировал все плагины памяти OpenClaw и обнаружил, что стандартная настройка markdown вызывает раздувание токенов и сжатие инструкций. Рекомендуемая конфигурация сочетает Obsidian для удобочитаемых заметок, QMD для поиска без токенов и SQLite для структурированных данных.

OpenClawRadar
Контрактное тестирование для разработки на основе искусственного интеллекта с использованием OpenClaw
Гайды

Контрактное тестирование для разработки на основе искусственного интеллекта с использованием OpenClaw

Контрактное тестирование может заменить интеграционные/E2E-тесты при использовании ИИ-агентов, таких как OpenClaw, фокусируясь на интерфейсах и инвариантах между компонентами. ИИ генерирует код для удовлетворения детерминированных контрактов, создавая быструю обратную связь для ускорения итераций.

OpenClawRadar