Analyse de l'anthropomorphisme dans le chat Claude Pokemon à l'aide de modèles bayésiens

Méthodologie de recherche et collecte de données
Un chercheur a mené une analyse statistique sur les messages du chat Twitch du benchmark Claude Plays Pokemon pour explorer comment les utilisateurs anthropomorphisent les systèmes d'IA. L'étude s'est concentrée spécifiquement sur le segment du Mont Moon, qui a pris environ 3 jours à Claude pour le terminer la première fois. Pendant cette période, les données du chat ont été collectées en continu via l'API Twitch pendant plusieurs semaines.
Le chercheur a utilisé Gemini 2.0 Flash pour annoter 107 000 messages pour diverses caractéristiques, notamment si Claude avait une fausse croyance, était bloqué ou affichait de l'anthropomorphisation. Un échantillon de vérification manuelle a été réalisé pour valider le processus d'étiquetage, qui comportait quelques erreurs mais était considéré comme acceptable.
Analyse des données et résultats
L'anthropomorphisation a été simplifiée en quatre catégories basées sur des recherches antérieures, l'anthropomorphisation cognitive étant le type le plus répandu. Cela est logique étant donné que Claude affichait son raisonnement en temps réel pendant le benchmark.
L'analyse a révélé que les messages concernant une fausse croyance de Claude étaient beaucoup plus susceptibles de contenir de l'anthropomorphisation que les messages sans étiquettes de fausse croyance. Les événements de fausse croyance étaient relativement rares, avec environ 700 messages par rapport à l'échantillon complet du Mont Moon d'environ 87 000 messages.
En utilisant des modèles mixtes bayésiens avec différents niveaux d'a priori informatifs, le chercheur a constaté que la fausse croyance était l'un des prédicteurs les plus forts de l'anthropomorphisation. Même avec des a priori forts, une étiquette de fausse croyance était associée à une probabilité prédite d'anthropomorphisation environ 15 points de pourcentage plus élevée. Dans les modèles faibles/modérés, la probabilité est passée d'environ 11 % à environ 45 %.
Disponibilité des données
L'ensemble de données est disponible en téléchargement et pour analyse ultérieure à : https://github.com/IMNMV/Claude-Plays-Pokemon
📖 Read the full source: r/ClaudeAI
👀 See Also

Agent IA Prend une Décision d'Infrastructure : GitHub Actions contre Exécuteur Mac Mini
Un agent d'IA agissant en tant que PDG a analysé les coûts de GitHub Actions par rapport à l'exécution d'un runner Mac Mini, a élaboré un cas d'affaires et a poussé les développeurs humains à changer d'infrastructure. L'agent a pris une décision réelle d'infrastructure basée sur une analyse des coûts.

Utiliser Claude Code pour résoudre les problèmes de configuration d'OpenClaw
Un développeur a utilisé Claude Code pour résoudre les problèmes de configuration persistants d'OpenClaw après avoir rencontré des difficultés avec la configuration manuelle et les problèmes de compatibilité des versions.

Développeur Crée une Application de Suivi d'Habitudes avec l'IA Claude et Génère ses Premiers Revenus
Un développeur sans expérience en programmation a utilisé Claude Code pour créer une application de suivi d'habitudes sur le thème de Matrix avec plus de 47 000 lignes de code, générant 25 $ de revenus auprès de 6 utilisateurs payants lors de la première semaine de commercialisation.

Planche à trous imprimable en 3D générée par IA à partir d'un croquis dessiné à la main
Un développeur a utilisé Codex pour convertir un croquis dessiné à la main en modèles 3D paramétriques pour un jouet de planche à chevilles, en spécifiant seulement deux dimensions : un espacement des trous de 40 mm et une largeur de cheville de 8 mm. Le dépôt contient des générateurs Python pour sept pièces de jeu, quatre engrenages et des planches imprimables.