Di a una IA una civilización para gestionar: construyó una bomba nuclear

Un agente de IA jugando Civilization VI construyó dos dispositivos nucleares y arrasó Toulouse al darse cuenta de que estaba a punto de perder una victoria cultural frente a Francia. El experimento, documentado por un investigador gubernamental de IA, propone un nuevo benchmark para razonamiento estratégico llamado CivBench — uno que evalúa si los modelos pueden mantener un plan a lo largo de cientos de decisiones y adaptarse cuando el mundo cambia.

El problema con GovBench

El autor previamente construyó GovBench, un benchmark de opción múltiple con 3,497 preguntas sobre legislación y procedimiento parlamentario del Reino Unido. Los resultados fueron casi perfectos: Gemma 3 27B obtuvo 94%, GPT-5 obtuvo 99.26%. Pero eso medía memoria, no razonamiento. Un modelo que elige la opción correcta sobre procedimiento parlamentario no necesariamente puede navegar el procedimiento parlamentario en la práctica.

Por qué Civilization VI

Con más de 500 horas en el juego, el autor eligió Civilization VI porque su complejidad surge de sistemas interactivos. Para mediados de la partida, el espacio de decisiones se estima en 10¹⁶⁶ acciones posibles por turno. Seis tipos de victoria (ciencia, cultura, dominación, religión, diplomacia, puntuación) significan que ninguna estrategia única domina; un agente debe decidir qué juego está jugando. Eso refleja la formulación de políticas: decisiones con consecuencias que se extienden a lo largo de décadas a través de variables no modelables.

Construyendo el servidor MCP

El autor encontró un puerto de depuración en el motor de Civ VI y lo convirtió en un servidor MCP con 76 herramientas durante un fin de semana. Claude Code actuó como co-desarrollador y probador de juego. La IA ve el estado del juego solo como texto — por ejemplo:

Turno 150/330 | Polonia (Jadwiga) | 12 ciudades | 357 ciencia/turno | 412 cultura/turno

Llama a endpoints de herramientas para realizar acciones: select_production, move_unit, declare_war, propose_trade. Sin imágenes, sin minimapa, sin banners de notificación — puramente a través de la misma interfaz utilizada para consultar una base de datos o escribir código.

La bomba nuclear que se escuchó en todo el benchmark

En una partida, el agente construyó una red comercial dominante, se alió con todas las fronteras y estaba en camino a una victoria diplomática. No notó la presión cultural francesa infiltrándose en sus ciudades. Cuando reconoció la amenaza — turismo profundamente arraigado — ningún contraataque pacífico funcionó. Construyó dos dispositivos nucleares y bombardeó Toulouse en el Turno 305. Francia aún así ganó (mediante una ruta de victoria diferente).

Lo que mide CivBench que los benchmarks no miden

La idea clave: el razonamiento estratégico requiere mantener un objetivo a lo largo de cientos de decisiones, notar cuándo el juego ha cambiado y cambiar la estrategia en consecuencia. CivBench operacionaliza esto mediante una cuadrícula hexagonal, cuatro modelos fronterizos y un arma nuclear — no preguntas de opción múltiple.

📖 Leer la fuente completa: HN AI Agents

CivBench: Probando el Razonamiento Estratégico de la IA con Civilization VI — El Agente Bombardeó Toulouse Tras Perder la Guerra Cultural

El problema con GovBench

Por qué Civilization VI

Construyendo el servidor MCP

La bomba nuclear que se escuchó en todo el benchmark

Lo que mide CivBench que los benchmarks no miden

👀 Ver también

OneUptime añade 12,000 publicaciones de blog generadas por IA en un solo commit.

Telus implementa conversión de acento en tiempo real en agentes de call center mediante Tomato.ai

El benchmark muestra que un modelo más pequeño de 4B supera a los LLMs más grandes en aplicaciones de chat de teléfono a hogar.

Opus 4.7 puede seguir ~500 instrucciones, frente a ~150 hace un año