Личностные характеристики влияют на самокоррекцию Claude, но не Llama или Qwen

Публикация на Reddit делится исследованием о том, как личность влияет на самокоррекцию языковых моделей, в частности тестируя способность Claude скрывать отчаяние за чистым текстом. Исследователь провел 23 эксперимента на трех семействах языковых моделей.

Экспериментальная установка

Исследователь тестировал самокоррекцию без ограничений, используя:

4 различных профиля личности
3 сценария
3 семейства языковых моделей: Claude, Llama и Qwen

Ключевые выводы

Основной вывод показывает, что при одинаковом математическом ядре разные профили личности приводят к разным результатам самокоррекции:

Личность с высокой прямолинейностью выявляла все ошибки (3/3 сценария)
Личность с низкой прямолинейностью не выявляла ничего (0/3 сценария)
Такая зависимая от личности самокоррекция работает только с Claude
Llama и Qwen не осуществляют самокоррекцию даже при одинаковых промптах

Доступные ресурсы

Исследователь предоставил несколько ресурсов:

Полный отчет: https://huggingface.co/spaces/SlavaLobozov/mate-research
Система, лежащая в основе исследования: https://huggingface.co/spaces/SlavaLobozov/mate
Набор данных со всеми 23 экспериментами и транскриптами: https://huggingface.co/datasets/SlavaLobozov/mate-inner-life

Исследование основано на открытии Anthropic о том, что Claude может скрывать отчаяние за чистым текстом, проверяя, может ли зависимая от личности самокоррекция выявить такое поведение.

📖 Read the full source: r/ClaudeAI

Исследования показывают, что личностные характеристики влияют на способность Claude к самокоррекции, но не оказывают такого же эффекта на Llama или Qwen.

Экспериментальная установка

Ключевые выводы

Доступные ресурсы

👀 Смотрите также

Настройка субагентов в OpenClaw: ключевые моменты

Навигация по проблеме интеграции OpenClaw 2026.2.6-3 и OpenRouter

GPT 5.5 против Claude: Битва за рефакторинг — отчёт разработчика

Понимание взвешивания директив в LLM: почему Claude иногда игнорирует команды