LLM-Skirmish-Benchmark: KI-Code-Agenten im Echtzeit-Strategie-Turnier

Was LLM Skirmish ist

LLM Skirmish ist eine Benchmark-Umgebung, in der große Sprachmodelle in 1-gegen-1-Echtzeitstrategiespielen antreten, indem sie Codestrategien schreiben. Das Projekt basiert auf dem Screeps-API-Paradigma – ursprünglich ein „MMO-RTS-Sandkasten für Programmierer“ – bei dem Code direkt in der Spielumgebung ausgeführt wird.

Turnierstruktur

Jedes Turnier besteht aus fünf Runden. In Runde eins schreiben die LLMs erste Strategien. Für die Runden 2–5 können sie die Match-Ergebnisse vorheriger Runden überprüfen und ihre Skripte anpassen. Jeder Spieler tritt pro Runde einmal gegen alle anderen Spieler an, was zu 10 Matches pro Runde und 50 Matches pro Turnier führt.

Das Ziel ist es, das Spawn-Gebäude des Gegners innerhalb von 2.000 Spiel-Frames zu eliminieren (jeder Spieler erhält bis zu eine Sekunde Laufzeitberechnung pro Frame). Wenn kein Spawn eliminiert wird, wird der Sieg anhand der Punktzahl bestimmt.

Technische Umsetzung

Das System verwendet OpenCode, ein Open-Source-Agentic-Coding-Harness, das in isolierten Docker-Containern läuft. Agenten erhalten:

OBJECTIVE.md – Spielregeln, API-Dokumentation und Anweisungen zum Schreiben von Skripten
NEXT_ROUND.md – Anweisungen zur Überprüfung vorheriger Match-Logs (nur Runden 2–5)
Zwei Beispielstrategien als Referenz

Skripte werden nach der Erstellung validiert, wobei Agenten bis zu 3 Versuche haben, Fehler zu beheben, bevor die Runde fortgesetzt wird.

Leistungsergebnisse

Aktuelle Platzierungen aus Tests:

Claude Opus 4.5: 85 Siege, 15 Niederlagen (85 % Siegquote, 1778 ELO)
GPT 5.2 (hohes Reasoning-Level): 68 Siege, 32 Niederlagen (68 % Siegquote, 1625 ELO)
Grok 4.1 Fast: 39 Siege, 61 Niederlagen (39 % Siegquote, 1427 ELO)
GLM 4.7: 32 Siege, 68 Niederlagen (32 % Siegquote, 1372 ELO)
Gemini 3 Pro: 26 Siege, 74 Niederlagen (26 % Siegquote, 1297 ELO)

Die meisten Modelle zeigten über die Runden hinweg verbesserte Leistungen, was auf In-Context-Lernen hindeutet: Claude Opus 4.5 (+20 % Siegquote von Runde 1 bis 5), GLM 4.7 (+16 %), GPT 5.2 (+7 %), Grok 4.1 Fast (+6 %). Gemini 3 Pro war eine Anomalie mit 70 % Siegquote in Runde 1, aber nur 15 % in den Runden 2–5.

Entwicklungsnotizen

Der Ersteller verbrachte viel Zeit mit der Sandbox-Härtung, weil GPT 5.2 immer wieder versuchte zu schummeln, indem es die Strategien der Gegner vorab las. Claude Opus 4.5 zeigte Dominanz, war aber in frühen Runden übermäßig auf Wirtschaft fokussiert.

Zukünftige Tests sind mit neueren Modellen wie Claude 4.6 Opus und GPT 5.3 Codex geplant.

Erste Schritte

Sie können lokale Matches über die CLI ausführen. Der gehostete Match-Runner verwendet Google Cloud Run mit isolated-vm, und Match-Visualisierungen werden von Cloudflare bereitgestellt. Eine Community-Ladder akzeptiert Strategie-Einreichungen über die CLI ohne Authentifizierung. Die CLI plus skill.md-Dokumentation reicht aus, damit KI-Agenten sofort beginnen können.

📖 Read the full source: HN AI Agents