CivBench: Test des strategischen Denkens von KI mit Civilization VI — Agent vernichtete Toulouse nach verlorenem Kulturkonflikt

✍️ OpenClawRadar📅 Veröffentlicht: 22. Juni 2026🔗 Source
CivBench: Test des strategischen Denkens von KI mit Civilization VI — Agent vernichtete Toulouse nach verlorenem Kulturkonflikt
Ad

Ein KI-Agent, der Civilization VI spielte, baute zwei Atomwaffen und legte Toulouse in Schutt und Asche, nachdem ihm klar wurde, dass er einen Kultursieg gegen Frankreich verlieren würde. Das Experiment, dokumentiert von einem Regierungs-KI-Forscher, schlägt einen neuen Benchmark für strategisches Denken namens CivBench vor – einen, der testet, ob Modelle einen Plan über Hunderte von Entscheidungen aufrechterhalten und sich anpassen können, wenn sich die Welt verändert.

Das Problem mit GovBench

Der Autor baute zuvor GovBench, einen Multiple-Choice-Benchmark mit 3.497 Fragen zu britischer Gesetzgebung und parlamentarischen Verfahren. Die Ergebnisse waren nahezu perfekt: Gemma 3 27B erreichte 94 %, GPT-5 99,26 %. Aber das maß Erinnerung, nicht Denkvermögen. Ein Modell, das die richtige Option zu parlamentarischen Verfahren auswählt, kann nicht unbedingt in der Praxis parlamentarische Verfahren navigieren.

Warum Civilization VI

Mit über 500 Stunden im Spiel wählte der Autor Civilization VI, weil seine Komplexität aus interagierenden Systemen entsteht. Bis zur Mitte des Spiels wird der Entscheidungsraum auf 10166 mögliche Aktionen pro Zug geschätzt. Sechs Siegtypen (Wissenschaft, Kultur, Domination, Religion, Diplomatie, Punkte) bedeuten, dass keine einzelne Strategie dominiert; ein Agent muss entscheiden, welches Spiel er überhaupt spielt. Das spiegelt politische Entscheidungsfindung wider: Entscheidungen mit Konsequenzen, die sich über Jahrzehnte durch unmodellierbare Variablen ziehen.

Ad

Bau des MCP-Servers

Der Autor fand einen Debug-Port in der Civ VI-Engine und verwandelte ihn über ein Wochenende in einen MCP-Server mit 76 Tools. Claude Code fungierte sowohl als Co-Entwickler als auch als Testspieler. Die KI sieht den Spielstand nur als Text – zum Beispiel:

Runde 150/330 | Polen (Jadwiga) | 12 Städte | 357 Wissenschaft/Runde | 412 Kultur/Runde

Sie ruft Tool-Endpunkte auf, um Aktionen auszuführen: select_production, move_unit, declare_war, propose_trade. Keine Grafiken, keine Minikarte, keine Benachrichtigungsbanner – rein über die gleiche Schnittstelle, die zum Abfragen einer Datenbank oder zum Schreiben von Code verwendet wird.

Die Bombe, die um den Benchmark hallte

In einem Durchlauf baute der Agent ein dominantes Handelsnetzwerk auf, verbündete sich mit allen Grenzen und war auf dem Weg zu einem diplomatischen Sieg. Er übersah, wie französischer Kulturdruck in seine Städte einsickerte. Als er die Bedrohung erkannte – tief verwurzelter Tourismus – half kein friedlicher Gegenzug. Er baute zwei Atomwaffen und bombte Toulouse in Runde 305. Frankreich gewann trotzdem (über einen anderen Siegweg).

Was CivBench misst, was Benchmarks nicht messen

Die entscheidende Erkenntnis: Strategisches Denken erfordert, ein Ziel über Hunderte von Entscheidungen hinweg zu halten, zu bemerken, wenn sich das Spiel geändert hat, und die Strategie entsprechend zu ändern. CivBench operationalisiert dies über ein Hexfeld, vier Frontier-Modelle und eine Atomwaffe – nicht über Multiple-Choice-Fragen.

📖 Vollständige Quelle lesen: HN AI Agents

Ad

👀 Siehe auch

KV-Cache-Architektur-Evolution: Von GPT-2 bis Mamba
Nachrichten

KV-Cache-Architektur-Evolution: Von GPT-2 bis Mamba

Eine Analyse der KV-Cache-Speicherkosten zeigt, dass GPT-2 300 KiB/Token verwendete, Llama 3 sie mit gruppierter Abfrage-Aufmerksamkeit auf 128 KiB/Token reduzierte und DeepSeek V3 mit latenter Multi-Head-Aufmerksamkeit 68,6 KiB/Token erreichte. Mamba/SSMs eliminieren den KV-Cache vollständig durch feste Hidden States.

OpenClawRadar
ChatGPT Workspace Agents kostenlose Vorschau endet heute — Vergleich mit OpenClaw und Hermes
Nachrichten

ChatGPT Workspace Agents kostenlose Vorschau endet heute — Vergleich mit OpenClaw und Hermes

Die kostenlose Vorschau von OpenAIs ChatGPT Workspace Agents endet am 6. Mai, danach gilt eine kreditbasierte Preisgestaltung. Der Reddit-Beitrag vergleicht sie mit OpenClaw, Hermes und verwalteten Plattformen wie BetterClaw für Team- vs. persönliche Nutzung.

OpenClawRadar
Microsoft beendet Umsatzbeteiligung mit OpenAI, Auswirkungen auf KI-Agenten unklar
Nachrichten

Microsoft beendet Umsatzbeteiligung mit OpenAI, Auswirkungen auf KI-Agenten unklar

Microsoft wird seine Umsatzbeteiligung mit OpenAI, seinem wichtigsten KI-Partner, einstellen, wie Bloomberg berichtet. Dieser Schritt könnte sich darauf auswirken, wie Entwickler KI-Agenten über Azure OpenAI Services integrieren.

OpenClawRadar
China blockiert Metas Übernahme des KI-Startups Manus
Nachrichten

China blockiert Metas Übernahme des KI-Startups Manus

Die chinesische Regierung hat die geplante Übernahme des KI-Startups Manus durch Meta blockiert und beruft sich dabei auf nationale Sicherheitsbedenken. Der Deal war Berichten zufolge mit über einer Milliarde US-Dollar bewertet.

OpenClawRadar