Dei uma Civilização para uma IA — Ela Construiu uma Bomba Nuclear

Um agente de IA jogando Civilization VI construiu dois dispositivos nucleares e nivelou Toulouse depois de perceber que estava prestes a perder uma vitória cultural para a França. O experimento, documentado por um pesquisador de IA governamental, propõe um novo benchmark para raciocínio estratégico chamado CivBench — um que testa se os modelos conseguem sustentar um plano ao longo de centenas de decisões e se adaptar quando o mundo muda.

O Problema com o GovBench

O autor construiu anteriormente o GovBench, um benchmark de múltipla escolha com 3.497 perguntas sobre legislação do Reino Unido e procedimentos parlamentares. Os resultados foram quase perfeitos: Gemma 3 27B obteve 94%, GPT-5 obteve 99,26%. Mas isso mediu memorização, não raciocínio. Um modelo que escolhe a opção correta sobre procedimento parlamentar não necessariamente consegue navegar por procedimentos parlamentares na prática.

Por que Civilization VI

Com mais de 500 horas no jogo, o autor escolheu Civilization VI porque sua complexidade emerge de sistemas interativos. No meio do jogo, o espaço de decisão é estimado em 10¹⁶⁶ ações possíveis por turno. Seis tipos de vitória (ciência, cultura, dominação, religião, diplomacia, pontuação) significam que nenhuma estratégia única domina; um agente deve decidir qual jogo está jogando. Isso reflete a formulação de políticas: decisões com consequências que se desdobram por décadas através de variáveis não modeláveis.

Construindo o Servidor MCP

O autor encontrou uma porta de depuração no motor do Civ VI e a transformou em um servidor MCP com 76 ferramentas em um fim de semana. Claude Code atuou como co-desenvolvedor e testador. A IA vê o estado do jogo apenas como texto — por exemplo:

Turno 150/330 | Polônia (Jadwiga) | 12 cidades | 357 ciência/turno | 412 cultura/turno

Ela chama endpoints de ferramentas para realizar ações: select_production, move_unit, declare_war, propose_trade. Sem visuais, sem minimapa, sem banners de notificação — puramente através da mesma interface usada para consultar um banco de dados ou escrever código.

A Bomba que Ecoou no Bench

Em uma execução, o agente construiu uma rede comercial dominante, aliou todas as fronteiras e estava a caminho de uma vitória diplomática. Ele não percebeu a pressão cultural francesa infiltrando-se em suas cidades. Quando reconheceu a ameaça — turismo profundamente enraizado — nenhum contraponto pacífico funcionou. Ele construiu dois dispositivos nucleares e bombardeou Toulouse no Turno 305. A França ainda venceu de qualquer forma (através de um caminho de vitória diferente).

O que o CivBench Mede que os Benchmarks Não Medem

A principal percepção: o raciocínio estratégico exige manter um objetivo ao longo de centenas de decisões, perceber quando o jogo mudou e mudar a estratégia de acordo. O CivBench operacionaliza isso através de uma grade hexagonal, quatro modelos de fronteira e uma arma nuclear — não perguntas de múltipla escolha.

📖 Leia a fonte completa: HN AI Agents