Claude Codeは、LLMを用いて4,000件以上の盲人狼ゲームをシミュレートするために使用されました。

シミュレーションの設定と結果
開発者がClaude Codeを使用して、大規模言語モデルが互いにブラインド・ワンナイト人狼をプレイする小さなシミュレーターを構築しました。この実験では、OpenAI(GPT-4o-mini、GPT-5-mini)とxAI(Grok-3-fast、Grok-4-1-fast)のモデルで約4,600ゲームが実行されました。
このゲームバリアントは最小限のシグナルしかありません:7人のプレイヤー、1人の人狼、役職なし、短い議論の後、同時投票が行われます。プレイヤー間の唯一の違いは名前だけです。この限られた設定にもかかわらず、シミュレーションでは、すべてのテストされたモデルで、一部の名前が他の名前よりも著しく頻繁に投票で脱落する一貫したパターンが明らかになりました。一方、他の名前はほとんど脱落しないことも分かりました。
重要な注意点とアクセス方法
開発者は、これは因果関係の主張ではなく、単なるおもちゃのような設定からの結果パターンであると明言しています。名前のグループは広範で、一部の名前は出現頻度が低く、この結果がモデルに関する根本的な何かを示しているのではなく、設定のアーティファクトである可能性が複数あります。しかし、これらのパターンが実行やモデルをまたいで一貫していることは驚くべきこととして指摘されています。
さらに探求したい方のために:
- ダッシュボード:https://huggingface.co/spaces/Queue-Bit-1/llm-bias-dashboard
- コード+生ログ:https://github.com/Queue-Bit-1/wolf
開発者は、他の人がマルチエージェントシミュレーションで同様の名前効果を観察したかどうかに興味を持っています。
📖 全文を読む: r/ClaudeAI
👀 See Also

マニュアル駆動開発:クロードコードの自信過剰な逸脱を防ぐ方法
マニュアル駆動開発(MDD)は、Claude Codeにおける自信過剰な乖離に対処する手法です。AIが誤った前提に基づいて、自身のテストを通過する誤ったコードを生成する問題を解決します。本番環境監査では、MDDが190件の問題を発見し、8時間未満で876件の新規テストを作成し、ルール違反を排除しました。

無料のWizardがChatGPTの履歴をClaude Projectsに移行 — トークン制限とRAGに関する重要な教訓
コード不要の無料ツールがChatGPTのエクスポートをClaude Projectsに移行し、26MBのJSONがトークン上限に達する問題と、話題ごとの分割が解決策であることを明らかに。ClaudeのRAGは大きなファイルの一部しか読み込まないため、具体的なクエリが最も効果的。

実世界での比較:OpenClawセットアップにおけるOpus 4.6対MiMo-V2-Pro対GLM-5
開発者が、トルコ語の慣用句翻訳、Pythonコーディング、空間推論、ブラウザ自動化を含む実践的なタスクで3つのAIモデルをテストしました。MiMo-V2-ProはコーディングタスクでOpus 4.6を上回り、コストは20分の1でしたが、Opusは非英語の言語理解で優位性を維持しました。

44,212件のClaude Codeログにおける「プロンプト千件あたりのFワード数」メトリクスで開発者のフラストレーションを追跡
ある開発者が「fpk」(プロンプト千件あたりのfワード数)を5ヶ月間、44,212件のClaude Codeプロンプトにわたって追跡したところ、フラストレーションがClaude Opus 4-5から4-7で3.4倍減少し、ほとんどの悪態はモデルではなく環境ツールに向けられていたことがわかった。