Анализ антропоморфизма в чате Claude Pokemon с использованием байесовских моделей

✍️ OpenClawRadar📅 Опубликовано: 14 марта 2026 г.🔗 Source

Методология исследования и сбор данных

Исследователь провёл статистический анализ сообщений чата Twitch из бенчмарка Claude Plays Pokemon, чтобы изучить, как пользователи антропоморфизируют системы искусственного интеллекта. Исследование было сосредоточено конкретно на сегменте Mt. Moon, который в первый раз занял у Claude примерно 3 дня для завершения. В течение этого периода данные чата непрерывно собирались через API Twitch в течение нескольких недель.

Исследователь использовал Gemini 2.0 Flash для аннотации 107 000 сообщений по различным признакам, включая наличие у Claude ложного убеждения, застревания или проявления антропоморфизации. Была проведена ручная проверка выборки для валидации процесса разметки, который имел некоторые ошибки, но считался удовлетворительным.

Анализ данных и результаты

Антропоморфизация была упрощена до четырёх категорий на основе предыдущих исследований, причём когнитивная антропоморфизация оказалась наиболее распространённым типом. Это логично, учитывая, что Claude отображал свои рассуждения в реальном времени во время бенчмарка.

Анализ показал, что сообщения, касающиеся ложных убеждений Claude, с гораздо большей вероятностью содержали антропоморфизацию, чем сообщения без таких тегов. События ложных убеждений были относительно редкими — примерно 700 сообщений по сравнению с полной выборкой Mt. Moon около 87 000 сообщений.

Используя байесовские модели со смешанными эффектами с разными уровнями информативных априорных распределений, исследователь обнаружил, что ложное убеждение является одним из самых сильных предикторов антропоморфизации. Даже при сильных априорных распределениях тег ложного убеждения был связан с примерно на 15 процентных пунктов более высокой прогнозируемой вероятностью антропоморфизации. В слабых/умеренных моделях вероятность возрастала примерно с 11% до 45%.

Доступность данных

Набор данных доступен для скачивания и дальнейшего анализа по адресу: https://github.com/IMNMV/Claude-Plays-Pokemon

📖 Read the full source: r/ClaudeAI

👀 Смотрите также

Кейсы

Левый взгляд на ИИ: инвалидность, хронические заболевания и класс

Шон Гёдекс утверждает, что большие языковые модели (LLM) служат левым ценностям, помогая людям с ограниченными возможностями, помогая пациентам с хроническими заболеваниями преодолевать бюрократические барьеры в медицине и обеспечивая классовое переключение кодов на бюрократический язык.

10 мая 2026 г., 18:19 UTC

OpenClawRadar

Кейсы

Агент OpenClaw AI самостоятельно обнаруживает ошибку, создает и отправляет запрос на слияние (PR) в GitHub.

Разработчик сообщает, что его агент ИИ OpenClaw диагностировал повторяющуюся проблему, отследил её до стороннего пакета, затем самостоятельно создал ветку на GitHub, сделал несколько коммитов, проверил свой собственный код и отправил запрос на слияние в репозиторий пакета.

2 мар. 2026 г., 18:45 UTC

OpenClawRadar

Кейсы

Дизайнер создает полноценную платформу с помощью Claude CLI: уроки, полученные без формального образования в программировании.

Дизайнер с опытом работы в WordPress использовал Claude CLI для создания платформы управления медицинским журналом, обрабатывающей более 500 регистраций на мероприятия, более 3500 пользователей в закрытой зоне и более 100 курсов электронного обучения. Ключевые уроки включают использование отдельных экземпляров ИИ для отладки и контроль версий всего на GitHub.

24 мар. 2026 г., 14:45 UTC

OpenClawRadar

Кейсы

Подход на основе конечных автоматов для координации множества ИИ-агентов

Команда ultrathink.art обнаружила, что координация нескольких ИИ-агентов требует явных переходов состояний, таймаутов проверки активности, ограничений на повторные попытки и цепочек задач, а не традиционных очередей сообщений. Они внедрили обязательные контрольные точки качества между передачами агентов, чтобы предотвратить вывод мусора.

28 февр. 2026 г., 23:45 UTC

OpenClawRadar