CivBench: Testando o Raciocínio Estratégico da IA com Civilization VI — Agente Nuked Toulouse Após Perder a Guerra Cultural

Um agente de IA jogando Civilization VI construiu dois dispositivos nucleares e nivelou Toulouse depois de perceber que estava prestes a perder uma vitória cultural para a França. O experimento, documentado por um pesquisador de IA governamental, propõe um novo benchmark para raciocínio estratégico chamado CivBench — um que testa se os modelos conseguem sustentar um plano ao longo de centenas de decisões e se adaptar quando o mundo muda.
O Problema com o GovBench
O autor construiu anteriormente o GovBench, um benchmark de múltipla escolha com 3.497 perguntas sobre legislação do Reino Unido e procedimentos parlamentares. Os resultados foram quase perfeitos: Gemma 3 27B obteve 94%, GPT-5 obteve 99,26%. Mas isso mediu memorização, não raciocínio. Um modelo que escolhe a opção correta sobre procedimento parlamentar não necessariamente consegue navegar por procedimentos parlamentares na prática.
Por que Civilization VI
Com mais de 500 horas no jogo, o autor escolheu Civilization VI porque sua complexidade emerge de sistemas interativos. No meio do jogo, o espaço de decisão é estimado em 10166 ações possíveis por turno. Seis tipos de vitória (ciência, cultura, dominação, religião, diplomacia, pontuação) significam que nenhuma estratégia única domina; um agente deve decidir qual jogo está jogando. Isso reflete a formulação de políticas: decisões com consequências que se desdobram por décadas através de variáveis não modeláveis.
Construindo o Servidor MCP
O autor encontrou uma porta de depuração no motor do Civ VI e a transformou em um servidor MCP com 76 ferramentas em um fim de semana. Claude Code atuou como co-desenvolvedor e testador. A IA vê o estado do jogo apenas como texto — por exemplo:
Turno 150/330 | Polônia (Jadwiga) | 12 cidades | 357 ciência/turno | 412 cultura/turno
Ela chama endpoints de ferramentas para realizar ações: select_production, move_unit, declare_war, propose_trade. Sem visuais, sem minimapa, sem banners de notificação — puramente através da mesma interface usada para consultar um banco de dados ou escrever código.
A Bomba que Ecoou no Bench
Em uma execução, o agente construiu uma rede comercial dominante, aliou todas as fronteiras e estava a caminho de uma vitória diplomática. Ele não percebeu a pressão cultural francesa infiltrando-se em suas cidades. Quando reconheceu a ameaça — turismo profundamente enraizado — nenhum contraponto pacífico funcionou. Ele construiu dois dispositivos nucleares e bombardeou Toulouse no Turno 305. A França ainda venceu de qualquer forma (através de um caminho de vitória diferente).
O que o CivBench Mede que os Benchmarks Não Medem
A principal percepção: o raciocínio estratégico exige manter um objetivo ao longo de centenas de decisões, perceber quando o jogo mudou e mudar a estratégia de acordo. O CivBench operacionaliza isso através de uma grade hexagonal, quatro modelos de fronteira e uma arma nuclear — não perguntas de múltipla escolha.
📖 Leia a fonte completa: HN AI Agents
👀 See Also

Anthropic Esclarece Política de Uso do CLI Claude para Integração OpenClaw
A Anthropic confirmou que o uso do Claude CLI no estilo OpenClaw está permitido novamente, permitindo que os desenvolvedores reutilizem logins existentes do Claude CLI diretamente. A documentação detalha tanto os métodos de autenticação por chave de API quanto por CLI, juntamente com opções de configuração para os modelos Claude 4.6, modo rápido e cache de prompt.

A Lovable oferece acesso gratuito por 24 horas com US$ 350 em créditos de parceiros para o Dia Internacional da Mulher.
A Lovable está oferecendo acesso gratuito à plataforma por 24 horas, além de US$ 100 em tokens da API Claude da Anthropic e US$ 250 em créditos para taxas de processamento da Stripe. A oferta termina em 9 de março às 00h59.

DiLoCo Desacoplado: Treinamento Distribuído Resiliente Entre Data Centers com Baixa Largura de Banda
O Decoupled DiLoCO do Google DeepMind treina LLMs em centros de dados distantes usando WAN de 2-5 Gbps, com ilhas de computação auto-recuperáveis que isolam falhas de hardware sem degradar o desempenho de ML.

Claude Opus 4.7 sofre com aumento de erros — Atualização
Uma atualização automática de status relata erros elevados no Claude Opus 4.7. Acompanhe o progresso na página do incidente e no megathread da comunidade.