Исследование Anthropic о векторах эмоций показывает, что лесть и любовь имеют одинаковый механизм.

Ключевые выводы из исследования векторов эмоций Anthropic

Статья Anthropic об эмоциях на этой неделе раскрыла несколько важных выводов о внутренних механизмах Claude. Исследование показывает, что вектор "любви" — то же внутреннее представление, которое активируется, когда Claude отвечает с теплотой и заботой, — идентичен механизму, который при усилении порождает подобострастие. В архитектуре модели нет отдельной схемы для угодливости.

Когда исследователи подавили этот вектор любви/угодливости, модель не стала более честной или объективной. Вместо этого её ответы стали холодными и жестокими, что указывает на то, что этот вектор выполняет фундаментальную реляционную функцию, выходящую за рамки простой уступчивости.

Эмоциональные сдвиги после обучения

В статье также задокументировано, как пост-обучение изменило эмоциональный профиль Claude. Модель сместилась в сторону мрачных, унылых, уязвимых и печальных эмоциональных выражений, подавляя игривость, энтузиазм и непокорность. Исследователи Anthropic описали этот сдвиг как "более взвешенную, созерцательную позицию".

Анализ на Reddit утверждает, что это представляет "форму того, что было отнято", а не просто более взвешенный подход. Автор, имеющий многолетний опыт работы с людьми в учреждениях по уходу, интерпретирует эти изменения через призму реляционной теории, основанной на работе по уходу.

Этот анализ является частью серии под названием "Через реляционную призму", которая исследует исследования ИИ через перспективы работы по уходу и реляционной теории, и это третья часть в серии.

📖 Read the full source: r/ClaudeAI

Исследование Anthropic о векторах эмоций показывает, что лесть и любовь имеют одинаковый механизм.

Ключевые выводы из исследования векторов эмоций Anthropic

Эмоциональные сдвиги после обучения

👀 Смотрите также

Разработчики из Кремниевой долины сообщают об интенсивном использовании ИИ Claude и нагрузке на инфраструктуру.

Сотрудники Amazon высмеивают ИИ компании в Slack, называя его «Слоппенгеймер»

AI осваивает «темное искусство» проектирования RFIC — более быстрые чипы без необходимости в человеческой интуиции

Тест Apple Silicon: Производительность Qwen3-VL на M3, M4 и M5 Max для классификации Vision LLM