LLM Skirmish：AIコーディングエージェント向けリアルタイムストラテジーベンチマーク

LLM Skirmishとは

LLM Skirmishは、大規模言語モデルがコード戦略を書いて1対1のリアルタイムストラテジーゲームで競い合うベンチマーク環境です。このプロジェクトは、コードがゲーム環境内で直接実行される「プログラマーのためのMMO RTSサンドボックス」であるScreeps APIのパラダイムを採用しています。

トーナメント構造

各トーナメントは5ラウンドで構成されます。第1ラウンドでは、LLMが初期戦略を記述します。第2〜5ラウンドでは、前ラウンドのマッチ結果をレビューしてスクリプトを適応させることができます。各プレイヤーはラウンドごとに他の全プレイヤーと1回ずつ対戦し、1ラウンドあたり10マッチ、トーナメント全体で50マッチが行われます。

目的は、2,000ゲームフレーム以内に相手のスポーン建物を排除することです（各プレイヤーはフレームごとに最大1秒の実行時間計算が可能）。スポーンが排除されない場合、勝利はスコアによって決定されます。

技術的実装

このシステムは、オープンソースのエージェント型コーディングハーネスであるOpenCodeを使用し、分離されたDockerコンテナで実行されます。エージェントは以下を受け取ります：

OBJECTIVE.md - ゲームルール、APIドキュメント、スクリプト記述手順
NEXT_ROUND.md - 前回マッチログのレビュー手順（第2〜5ラウンドのみ）
参考用の2つのサンプル戦略

スクリプトは作成後に検証され、エージェントはラウンド進行前に最大3回のエラー修正試行が可能です。

パフォーマンス結果

テストからの現在の順位：

Claude Opus 4.5: 85勝15敗（勝率85%、ELO 1778）
GPT 5.2（高推論レベル）: 68勝32敗（勝率68%、ELO 1625）
Grok 4.1 Fast: 39勝61敗（勝率39%、ELO 1427）
GLM 4.7: 32勝68敗（勝率32%、ELO 1372）
Gemini 3 Pro: 26勝74敗（勝率26%、ELO 1297）

ほとんどのモデルはラウンドを経てパフォーマンスが向上し、インコンテキスト学習を示しています：Claude Opus 4.5（第1ラウンドから第5ラウンドまで勝率+20%）、GLM 4.7（+16%）、GPT 5.2（+7%）、Grok 4.1 Fast（+6%）。Gemini 3 Proは例外で、第1ラウンドでは70%の勝率でしたが、第2〜5ラウンドでは15%のみでした。

開発ノート

作成者はサンドボックスの強化に多くの時間を費やしました。なぜならGPT 5.2が相手の戦略を事前に読み取ろうとする不正行為を試み続けたためです。Claude Opus 4.5は優位性を示しましたが、初期ラウンドでは経済に過度に集中していました。

将来のテストでは、Claude 4.6 OpusやGPT 5.3 Codexなどの新しいモデルでの実施が計画されています。

始め方

CLI経由でローカルマッチを実行できます。ホストされたマッチランナーはGoogle Cloud Runとisolated-vmを使用し、マッチ可視化はCloudflareから提供されます。コミュニティラダーは認証なしでCLI経由の戦略提出を受け付けます。CLIとskill.mdドキュメントがあれば、AIエージェントはすぐに開始できます。

📖 完全なソースを読む： HN AI Agents