Anthropomorphisme IA : analyse bayésienne de 107K messages Claude Pokemon

Méthodologie de recherche et collecte de données

Un chercheur a mené une analyse statistique sur les messages du chat Twitch du benchmark Claude Plays Pokemon pour explorer comment les utilisateurs anthropomorphisent les systèmes d'IA. L'étude s'est concentrée spécifiquement sur le segment du Mont Moon, qui a pris environ 3 jours à Claude pour le terminer la première fois. Pendant cette période, les données du chat ont été collectées en continu via l'API Twitch pendant plusieurs semaines.

Le chercheur a utilisé Gemini 2.0 Flash pour annoter 107 000 messages pour diverses caractéristiques, notamment si Claude avait une fausse croyance, était bloqué ou affichait de l'anthropomorphisation. Un échantillon de vérification manuelle a été réalisé pour valider le processus d'étiquetage, qui comportait quelques erreurs mais était considéré comme acceptable.

Analyse des données et résultats

L'anthropomorphisation a été simplifiée en quatre catégories basées sur des recherches antérieures, l'anthropomorphisation cognitive étant le type le plus répandu. Cela est logique étant donné que Claude affichait son raisonnement en temps réel pendant le benchmark.

L'analyse a révélé que les messages concernant une fausse croyance de Claude étaient beaucoup plus susceptibles de contenir de l'anthropomorphisation que les messages sans étiquettes de fausse croyance. Les événements de fausse croyance étaient relativement rares, avec environ 700 messages par rapport à l'échantillon complet du Mont Moon d'environ 87 000 messages.

En utilisant des modèles mixtes bayésiens avec différents niveaux d'a priori informatifs, le chercheur a constaté que la fausse croyance était l'un des prédicteurs les plus forts de l'anthropomorphisation. Même avec des a priori forts, une étiquette de fausse croyance était associée à une probabilité prédite d'anthropomorphisation environ 15 points de pourcentage plus élevée. Dans les modèles faibles/modérés, la probabilité est passée d'environ 11 % à environ 45 %.

Disponibilité des données

L'ensemble de données est disponible en téléchargement et pour analyse ultérieure à : https://github.com/IMNMV/Claude-Plays-Pokemon

📖 Read the full source: r/ClaudeAI

Analyse de l'anthropomorphisme dans le chat Claude Pokemon à l'aide de modèles bayésiens

Méthodologie de recherche et collecte de données

Analyse des données et résultats

Disponibilité des données

👀 See Also

Développeur Remplace un Agent IA par un Script Playwright Direct pour l'Automatisation du Navigateur

La version modifiée de vLLM 0.17.0 fonctionne sur Tesla P40 pour la transcription en temps réel avec Qwen3 ASR 1.7B.

Utiliser l'IA pour améliorer les outils d'entreprise existants comme Jira

Claude Code vs Codex : La scission des flux de travail des développeurs