ベイズモデルで分析：Claudeポケモンチャットの擬人化

研究方法論とデータ収集

研究者は、ユーザーがAIシステムを擬人化する方法を探るため、Claude Plays PokemonベンチマークのTwitchチャットメッセージに対して統計分析を実施しました。この研究は特に、Claudeが初回クリアに約3日間を要したムーン山セグメントに焦点を当てました。この期間中、Twitch APIを通じて数週間にわたりチャットデータが継続的に収集されました。

研究者はGemini 2.0 Flashを使用して、Claudeが何らかの誤信念を持っているか、行き詰まっているか、擬人化が表れているかなど、さまざまな特徴について10万7千件のメッセージに注釈を付けました。ラベリングプロセスを検証するため手動検証サンプルが実施され、いくつかの誤りはあったものの、妥当な精度と評価されました。

データ分析と発見

擬人化は先行研究に基づき4つのカテゴリに簡略化され、認知的擬人化が最も一般的なタイプでした。これは、Claudeがベンチマーク中にリアルタイムで推論を表示していたことを考えると理にかなっています。

分析により、Claudeが誤信念を持っていることを示すメッセージは、誤信念タグのないメッセージよりも擬人化を含む可能性がはるかに高いことが明らかになりました。誤信念イベントは比較的稀で、約8万7千件のムーン山サンプル全体に対して約700件のメッセージでした。

異なるレベルの情報事前分布を用いたベイズ混合効果モデルを使用して、研究者は誤信念が擬人化の最も強力な予測因子の一つであることを発見しました。強い事前分布の下でも、誤信念タグは擬人化の予測確率が約15パーセントポイント高くなることと関連していました。弱い/中程度のモデルでは、確率は約11%から約45%に上昇しました。