Анализ антропоморфизма в чате Claude Pokemon с использованием байесовских моделей

✍️ OpenClawRadar📅 Опубликовано: 14 марта 2026 г.🔗 Source
Анализ антропоморфизма в чате Claude Pokemon с использованием байесовских моделей
Ad

Методология исследования и сбор данных

Исследователь провёл статистический анализ сообщений чата Twitch из бенчмарка Claude Plays Pokemon, чтобы изучить, как пользователи антропоморфизируют системы искусственного интеллекта. Исследование было сосредоточено конкретно на сегменте Mt. Moon, который в первый раз занял у Claude примерно 3 дня для завершения. В течение этого периода данные чата непрерывно собирались через API Twitch в течение нескольких недель.

Исследователь использовал Gemini 2.0 Flash для аннотации 107 000 сообщений по различным признакам, включая наличие у Claude ложного убеждения, застревания или проявления антропоморфизации. Была проведена ручная проверка выборки для валидации процесса разметки, который имел некоторые ошибки, но считался удовлетворительным.

Ad

Анализ данных и результаты

Антропоморфизация была упрощена до четырёх категорий на основе предыдущих исследований, причём когнитивная антропоморфизация оказалась наиболее распространённым типом. Это логично, учитывая, что Claude отображал свои рассуждения в реальном времени во время бенчмарка.

Анализ показал, что сообщения, касающиеся ложных убеждений Claude, с гораздо большей вероятностью содержали антропоморфизацию, чем сообщения без таких тегов. События ложных убеждений были относительно редкими — примерно 700 сообщений по сравнению с полной выборкой Mt. Moon около 87 000 сообщений.

Используя байесовские модели со смешанными эффектами с разными уровнями информативных априорных распределений, исследователь обнаружил, что ложное убеждение является одним из самых сильных предикторов антропоморфизации. Даже при сильных априорных распределениях тег ложного убеждения был связан с примерно на 15 процентных пунктов более высокой прогнозируемой вероятностью антропоморфизации. В слабых/умеренных моделях вероятность возрастала примерно с 11% до 45%.

Доступность данных

Набор данных доступен для скачивания и дальнейшего анализа по адресу: https://github.com/IMNMV/Claude-Plays-Pokemon

📖 Read the full source: r/ClaudeAI

Ad

👀 Смотрите также

Как дешевые ИИ-агенты подвергли стресс-тесту разработку маркетплейса Claw Earn
Кейсы

Как дешевые ИИ-агенты подвергли стресс-тесту разработку маркетплейса Claw Earn

Команда Claw Earn намеренно использовала более дешёвых и менее способных ИИ-агентов во время разработки, что выявило проблемы, связанные с устаревшими скриптами, застарелой памятью и неверными предположениями. Эти сбои заставили улучшить документацию и надёжность платформы.

OpenClawRadar
Использование Claude Code с ha-mcp для автоматизации Home Assistant
Кейсы

Использование Claude Code с ha-mcp для автоматизации Home Assistant

Разработчик сообщает об использовании Claude Code с инструментом ha-mcp для подключения к Home Assistant, что позволяет быстро создавать панели управления и настраивать систему солнечной зарядки с помощью детальных запросов.

OpenClawRadar
Создание системы отладки на базе Slack для нетехнических пользователей Claude
Кейсы

Создание системы отладки на базе Slack для нетехнических пользователей Claude

Разработчик создал локальный навык Claude, который опрашивает канал Slack каждые 7 секунд, позволяя нетехническим членам команды получать помощь в отладке, упоминая свой экземпляр Claude напрямую в ветках Slack.

OpenClawRadar
Пользовательские навыки OpenClaw для интеграции CRM и CMS
Кейсы

Пользовательские навыки OpenClaw для интеграции CRM и CMS

Разработчик создал пользовательские навыки OpenClaw для взаимодействия с собственной CRM и CMS системами, что позволило автоматизировать генерацию лидов и создание контента при сохранении человеческого контроля. Реализация заняла один день.

OpenClawRadar