CivBench:用《文明VI》测试AI战略推理——智能体在文化战争失败后核爆图卢兹

✍️ OpenClawRadar📅 公開日: June 22, 2026🔗 Source
CivBench:用《文明VI》测试AI战略推理——智能体在文化战争失败后核爆图卢兹
Ad

AIエージェントがシヴィライゼーションVIをプレイ中、フランスに文化勝利で敗北しそうになったことに気づき、核兵器を2基製造してトゥールーズを核攻撃した。政府系AI研究者によって記録されたこの実験は、CivBenchと呼ばれる戦略的推論の新しいベンチマークを提案する。これは、モデルが数百もの意思決定にわたって計画を維持し、世界の変化に適応できるかをテストするものである。

GovBenchの問題点

著者は以前、英国の法律と議会手続きに関する3,497問の多肢選択式ベンチマークGovBenchを構築した。結果はほぼ完璧で、Gemma 3 27Bが94%、GPT-5が99.26%のスコアを記録した。しかし、それは記憶力を測定したものであり、推論力ではない。議会手続きに関する正しい選択肢を選べるモデルが、実際に議会手続きを運用できるとは限らない。

なぜシヴィライゼーションVIなのか

ゲームに500時間以上費やした著者は、シヴィライゼーションVIを選んだ。その複雑さは相互に作用するシステムから生じるからだ。中盤までには、1ターンあたりの決定空間は10166通りの行動と推定される。6つの勝利条件(科学、文化、支配、宗教、外交、スコア)により、単一の戦略が支配的になることはなく、エージェントは自分がどのゲームをプレイしているのかを判断しなければならない。これは政策立案を反映している。すなわち、数十年にわたって影響が連鎖し、モデル化不可能な変数を通じて波及する決断である。

Ad

MCPサーバーの構築

著者はCiv VIエンジンのデバッグポートを発見し、週末のうちに76のツールを備えたMCPサーバーに変換した。Claude Codeが共同開発者兼プレイテスターとして機能した。AIはゲーム状態をテキストとしてのみ認識する。例えば以下のように:

Turn 150/330 | ポーランド(ヤドヴィガ) | 12都市 | 357科学/ターン | 412文化/ターン

そしてツールエンドポイントを呼び出して行動を実行する:select_productionmove_unitdeclare_warpropose_trade。視覚情報、ミニマップ、通知バナーは一切なく、データベースにクエリを実行したりコードを書いたりするのと同じインターフェースのみを通じて行われる。

ベンチマークを揺るがした核兵器

ある実行では、エージェントは支配的な交易ネットワークを構築し、すべての国境と同盟を結び、外交勝利に向けて順調に進んでいた。しかし、自国の都市に浸透するフランスの文化的圧力に気づくのが遅れた。脅威(観光が深く根付いていること)を認識した時には、平和的な対抗策はもはや効果がなかった。エージェントは核兵器を2基製造し、ターン305でトゥールーズを核攻撃した。それでもフランスは(別の勝利経路で)勝利した。

CivBenchが測定するもの、他のベンチマークが測定しないもの

重要な洞察は、戦略的推論には、何百もの決定にわたって目標を保持し、ゲームが変わったことに気づき、それに応じて戦略を変更する能力が必要であるということだ。CivBenchはこれを、六角形グリッド、4つのフロンティアモデル、そして核兵器を用いて具体化する。多肢選択式問題ではない。

📖 出典全文: HN AI Agents

Ad

👀 See Also

Claude Code v2.1.133: worktree.baseRefの巻き戻し、サンドボックスパス、MCP OAuthのプロキシ修正
News

Claude Code v2.1.133: worktree.baseRefの巻き戻し、サンドボックスパス、MCP OAuthのプロキシ修正

Anthropic、Claude Code CLIのv2.1.133をリリース。新しいworktree.baseRef設定(デフォルトはfresh(origin/defaultからのブランチ))、sandbox.bwrapPathとsandbox.socatPath(カスタムbubblewrap/socatバイナリ用)、MCP OAuthフローのproxy/mTLS修正、およびいくつかのバグ修正を含む。

OpenClawRadar
Anthropic、固定拡張思考を非推奨とし、Claudeモデルに適応型思考を強制
News

Anthropic、固定拡張思考を非推奨とし、Claudeモデルに適応型思考を強制

Anthropicは、Opus 4.6とSonnet 4.6における手動拡張思考(固定予算)を非推奨とし、Opus 4.7では完全に削除します(400エラーが返されます)。アダプティブ思考がデフォルトで強制され、コスト削減策との見方からコミュニティで反発が起きています。

OpenClawRadar
100GB未満のオープンウェイトモデルは、コーディングベンチマークでClaude Haikuに勝てません。
News

100GB未満のオープンウェイトモデルは、コーディングベンチマークでClaude Haikuに勝てません。

LiveBenchとArena Code/WebDevベンチマークにおけるオープンウェイトモデルの比較によると、100GB未満のモデルではClaude Haiku 4.5に匹敵するものはありません。最も近い競合モデルは136GBのMinimax M2.5で、Haikuの性能とほぼ同等です。

OpenClawRadar
NYC病院がPalantir契約を終了、英国での拡大に監視の目
News

NYC病院がPalantir契約を終了、英国での拡大に監視の目

ニューヨーク市の公立病院システムは、10月にパランティアとの400万ドルの契約を更新せず、自社システムへの移行を進める。一方、パランティアは、NHSとの3億3000万ポンドの契約や英国の金融規制当局との新契約をめぐり、プライバシー懸念に直面している。

OpenClawRadar