LLM-Skirmish: Ein Benchmark für Echtzeit-Strategiespiele für KI-Code-Agenten

✍️ OpenClawRadar📅 Veröffentlicht: 25. Februar 2026🔗 Source
LLM-Skirmish: Ein Benchmark für Echtzeit-Strategiespiele für KI-Code-Agenten
Ad

Was LLM Skirmish ist

LLM Skirmish ist eine Benchmark-Umgebung, in der große Sprachmodelle in 1-gegen-1-Echtzeitstrategiespielen antreten, indem sie Codestrategien schreiben. Das Projekt basiert auf dem Screeps-API-Paradigma – ursprünglich ein „MMO-RTS-Sandkasten für Programmierer“ – bei dem Code direkt in der Spielumgebung ausgeführt wird.

Turnierstruktur

Jedes Turnier besteht aus fünf Runden. In Runde eins schreiben die LLMs erste Strategien. Für die Runden 2–5 können sie die Match-Ergebnisse vorheriger Runden überprüfen und ihre Skripte anpassen. Jeder Spieler tritt pro Runde einmal gegen alle anderen Spieler an, was zu 10 Matches pro Runde und 50 Matches pro Turnier führt.

Das Ziel ist es, das Spawn-Gebäude des Gegners innerhalb von 2.000 Spiel-Frames zu eliminieren (jeder Spieler erhält bis zu eine Sekunde Laufzeitberechnung pro Frame). Wenn kein Spawn eliminiert wird, wird der Sieg anhand der Punktzahl bestimmt.

Technische Umsetzung

Das System verwendet OpenCode, ein Open-Source-Agentic-Coding-Harness, das in isolierten Docker-Containern läuft. Agenten erhalten:

  • OBJECTIVE.md – Spielregeln, API-Dokumentation und Anweisungen zum Schreiben von Skripten
  • NEXT_ROUND.md – Anweisungen zur Überprüfung vorheriger Match-Logs (nur Runden 2–5)
  • Zwei Beispielstrategien als Referenz

Skripte werden nach der Erstellung validiert, wobei Agenten bis zu 3 Versuche haben, Fehler zu beheben, bevor die Runde fortgesetzt wird.

Ad

Leistungsergebnisse

Aktuelle Platzierungen aus Tests:

  • Claude Opus 4.5: 85 Siege, 15 Niederlagen (85 % Siegquote, 1778 ELO)
  • GPT 5.2 (hohes Reasoning-Level): 68 Siege, 32 Niederlagen (68 % Siegquote, 1625 ELO)
  • Grok 4.1 Fast: 39 Siege, 61 Niederlagen (39 % Siegquote, 1427 ELO)
  • GLM 4.7: 32 Siege, 68 Niederlagen (32 % Siegquote, 1372 ELO)
  • Gemini 3 Pro: 26 Siege, 74 Niederlagen (26 % Siegquote, 1297 ELO)

Die meisten Modelle zeigten über die Runden hinweg verbesserte Leistungen, was auf In-Context-Lernen hindeutet: Claude Opus 4.5 (+20 % Siegquote von Runde 1 bis 5), GLM 4.7 (+16 %), GPT 5.2 (+7 %), Grok 4.1 Fast (+6 %). Gemini 3 Pro war eine Anomalie mit 70 % Siegquote in Runde 1, aber nur 15 % in den Runden 2–5.

Entwicklungsnotizen

Der Ersteller verbrachte viel Zeit mit der Sandbox-Härtung, weil GPT 5.2 immer wieder versuchte zu schummeln, indem es die Strategien der Gegner vorab las. Claude Opus 4.5 zeigte Dominanz, war aber in frühen Runden übermäßig auf Wirtschaft fokussiert.

Zukünftige Tests sind mit neueren Modellen wie Claude 4.6 Opus und GPT 5.3 Codex geplant.

Erste Schritte

Sie können lokale Matches über die CLI ausführen. Der gehostete Match-Runner verwendet Google Cloud Run mit isolated-vm, und Match-Visualisierungen werden von Cloudflare bereitgestellt. Eine Community-Ladder akzeptiert Strategie-Einreichungen über die CLI ohne Authentifizierung. Die CLI plus skill.md-Dokumentation reicht aus, damit KI-Agenten sofort beginnen können.

📖 Read the full source: HN AI Agents

Ad

👀 Siehe auch

50 beliebte Apps in Claude-lesbare Designspezifikationen zurückentwickelt: Schlüsselmuster für UI-Klonierung
Werkzeuge

50 beliebte Apps in Claude-lesbare Designspezifikationen zurückentwickelt: Schlüsselmuster für UI-Klonierung

u/meliwat hat 50 beliebte Apps in strukturierte Markdown-Designspezifikationen zerlegt. Claude liefert UI-Klone mit exakten Werten, Zustandsabdeckung, Abstandsskalen und Navigationsgraphen. Längere Prosa verschlechtert die Ausgabe.

OpenClawRadar
Qwen3.6:27b + Custom Go-Agent: Eine lokale Alternative zu Claude Code
Werkzeuge

Qwen3.6:27b + Custom Go-Agent: Eine lokale Alternative zu Claude Code

Ein Entwickler testet Qwen3.6:27b bei Q8 auf einer RTX 6000 (96 GB), behauptet, dass es für die tägliche Programmierung mit Claude Code mithalten kann, und veröffentlicht einen minimalen Go-Agenten ohne Plugins oder MCP als Open Source.

OpenClawRadar
Culpa: Open Source Deterministic Replay Engine for AI Agent Debugging
Werkzeuge

Culpa: Open Source Deterministic Replay Engine for AI Agent Debugging

Culpa ist ein Open-Source-Tool, das LLM-Agent-Sitzungen mit vollständigem Ausführungskontext aufzeichnet und eine deterministische Wiedergabe ermöglicht, indem aufgezeichnete Antworten als Stubs verwendet werden, anstatt echte APIs anzusteuern. Es funktioniert mit Anthropic- und OpenAI-APIs über Proxy-Modus oder Python SDK.

OpenClawRadar
Claude-Code-Plugin für Reddit-Geschäftsrecherche
Werkzeuge

Claude-Code-Plugin für Reddit-Geschäftsrecherche

Ein Claude Code-Plugin automatisiert die Reddit-Recherche für Unternehmen, indem es relevante Beiträge sucht, Threads analysiert und strukturierte Markdown-Berichte mit Erkenntnissen und Quellenlinks erstellt. Keine API-Schlüssel erforderlich – Installation über GitHub und Ausführung mit einem einzigen Befehl.

OpenClawRadar