AIに文明を運営させたら核兵器を作った

AIエージェントがシヴィライゼーションVIをプレイ中、フランスに文化勝利で敗北しそうになったことに気づき、核兵器を2基製造してトゥールーズを核攻撃した。政府系AI研究者によって記録されたこの実験は、CivBenchと呼ばれる戦略的推論の新しいベンチマークを提案する。これは、モデルが数百もの意思決定にわたって計画を維持し、世界の変化に適応できるかをテストするものである。

GovBenchの問題点

著者は以前、英国の法律と議会手続きに関する3,497問の多肢選択式ベンチマークGovBenchを構築した。結果はほぼ完璧で、Gemma 3 27Bが94%、GPT-5が99.26%のスコアを記録した。しかし、それは記憶力を測定したものであり、推論力ではない。議会手続きに関する正しい選択肢を選べるモデルが、実際に議会手続きを運用できるとは限らない。

なぜシヴィライゼーションVIなのか

ゲームに500時間以上費やした著者は、シヴィライゼーションVIを選んだ。その複雑さは相互に作用するシステムから生じるからだ。中盤までには、1ターンあたりの決定空間は10¹⁶⁶通りの行動と推定される。6つの勝利条件（科学、文化、支配、宗教、外交、スコア）により、単一の戦略が支配的になることはなく、エージェントは自分がどのゲームをプレイしているのかを判断しなければならない。これは政策立案を反映している。すなわち、数十年にわたって影響が連鎖し、モデル化不可能な変数を通じて波及する決断である。

MCPサーバーの構築

著者はCiv VIエンジンのデバッグポートを発見し、週末のうちに76のツールを備えたMCPサーバーに変換した。Claude Codeが共同開発者兼プレイテスターとして機能した。AIはゲーム状態をテキストとしてのみ認識する。例えば以下のように：

Turn 150/330 | ポーランド（ヤドヴィガ） | 12都市 | 357科学/ターン | 412文化/ターン

そしてツールエンドポイントを呼び出して行動を実行する：select_production、move_unit、declare_war、propose_trade。視覚情報、ミニマップ、通知バナーは一切なく、データベースにクエリを実行したりコードを書いたりするのと同じインターフェースのみを通じて行われる。

ベンチマークを揺るがした核兵器

ある実行では、エージェントは支配的な交易ネットワークを構築し、すべての国境と同盟を結び、外交勝利に向けて順調に進んでいた。しかし、自国の都市に浸透するフランスの文化的圧力に気づくのが遅れた。脅威（観光が深く根付いていること）を認識した時には、平和的な対抗策はもはや効果がなかった。エージェントは核兵器を2基製造し、ターン305でトゥールーズを核攻撃した。それでもフランスは（別の勝利経路で）勝利した。