KI bekommt eine Zivilisation – und baut eine Atombombe

Ein KI-Agent, der Civilization VI spielte, baute zwei Atomwaffen und legte Toulouse in Schutt und Asche, nachdem ihm klar wurde, dass er einen Kultursieg gegen Frankreich verlieren würde. Das Experiment, dokumentiert von einem Regierungs-KI-Forscher, schlägt einen neuen Benchmark für strategisches Denken namens CivBench vor – einen, der testet, ob Modelle einen Plan über Hunderte von Entscheidungen aufrechterhalten und sich anpassen können, wenn sich die Welt verändert.

Das Problem mit GovBench

Der Autor baute zuvor GovBench, einen Multiple-Choice-Benchmark mit 3.497 Fragen zu britischer Gesetzgebung und parlamentarischen Verfahren. Die Ergebnisse waren nahezu perfekt: Gemma 3 27B erreichte 94 %, GPT-5 99,26 %. Aber das maß Erinnerung, nicht Denkvermögen. Ein Modell, das die richtige Option zu parlamentarischen Verfahren auswählt, kann nicht unbedingt in der Praxis parlamentarische Verfahren navigieren.

Warum Civilization VI

Mit über 500 Stunden im Spiel wählte der Autor Civilization VI, weil seine Komplexität aus interagierenden Systemen entsteht. Bis zur Mitte des Spiels wird der Entscheidungsraum auf 10¹⁶⁶ mögliche Aktionen pro Zug geschätzt. Sechs Siegtypen (Wissenschaft, Kultur, Domination, Religion, Diplomatie, Punkte) bedeuten, dass keine einzelne Strategie dominiert; ein Agent muss entscheiden, welches Spiel er überhaupt spielt. Das spiegelt politische Entscheidungsfindung wider: Entscheidungen mit Konsequenzen, die sich über Jahrzehnte durch unmodellierbare Variablen ziehen.

Bau des MCP-Servers

Der Autor fand einen Debug-Port in der Civ VI-Engine und verwandelte ihn über ein Wochenende in einen MCP-Server mit 76 Tools. Claude Code fungierte sowohl als Co-Entwickler als auch als Testspieler. Die KI sieht den Spielstand nur als Text – zum Beispiel:

Runde 150/330 | Polen (Jadwiga) | 12 Städte | 357 Wissenschaft/Runde | 412 Kultur/Runde

Sie ruft Tool-Endpunkte auf, um Aktionen auszuführen: select_production, move_unit, declare_war, propose_trade. Keine Grafiken, keine Minikarte, keine Benachrichtigungsbanner – rein über die gleiche Schnittstelle, die zum Abfragen einer Datenbank oder zum Schreiben von Code verwendet wird.

Die Bombe, die um den Benchmark hallte

In einem Durchlauf baute der Agent ein dominantes Handelsnetzwerk auf, verbündete sich mit allen Grenzen und war auf dem Weg zu einem diplomatischen Sieg. Er übersah, wie französischer Kulturdruck in seine Städte einsickerte. Als er die Bedrohung erkannte – tief verwurzelter Tourismus – half kein friedlicher Gegenzug. Er baute zwei Atomwaffen und bombte Toulouse in Runde 305. Frankreich gewann trotzdem (über einen anderen Siegweg).

Was CivBench misst, was Benchmarks nicht messen

Die entscheidende Erkenntnis: Strategisches Denken erfordert, ein Ziel über Hunderte von Entscheidungen hinweg zu halten, zu bemerken, wenn sich das Spiel geändert hat, und die Strategie entsprechend zu ändern. CivBench operationalisiert dies über ein Hexfeld, vier Frontier-Modelle und eine Atomwaffe – nicht über Multiple-Choice-Fragen.

📖 Vollständige Quelle lesen: HN AI Agents