J'ai donné une civilisation à une IA : elle a fabriqué une bombe nucléaire

Un agent IA jouant à Civilization VI a construit deux engins nucléaires et rasé Toulouse après avoir réalisé qu'il allait perdre une victoire culturelle face à la France. L'expérience, documentée par un chercheur en IA gouvernemental, propose un nouveau benchmark pour le raisonnement stratégique appelé CivBench — qui teste si les modèles peuvent maintenir un plan sur des centaines de décisions et s'adapter lorsque le monde change.

Le problème de GovBench

L'auteur a précédemment développé GovBench, un benchmark à choix multiples de 3 497 questions sur la législation et la procédure parlementaire britanniques. Les résultats étaient quasi parfaits : Gemma 3 27B a obtenu 94 %, GPT-5 99,26 %. Mais cela mesurait la mémorisation, pas le raisonnement. Un modèle qui choisit la bonne option sur la procédure parlementaire ne peut pas nécessairement naviguer dans la procédure parlementaire en pratique.

Pourquoi Civilization VI

Avec plus de 500 heures de jeu, l'auteur a choisi Civilization VI car sa complexité émerge de systèmes interactifs. Au milieu du jeu, l'espace de décision est estimé à 10¹⁶⁶ actions possibles par tour. Six types de victoire (scientifique, culturelle, domination, religieuse, diplomatique, score) signifient qu'aucune stratégie unique ne domine ; un agent doit décider à quel jeu il joue. Cela reflète l'élaboration de politiques : des décisions aux conséquences qui s'étendent sur des décennies à travers des variables non modélisables.

Construction du serveur MCP

L'auteur a trouvé un port de débogage dans le moteur de Civ VI et l'a transformé en un serveur MCP avec 76 outils en un week-end. Claude Code a servi à la fois de co-développeur et de testeur. L'IA voit l'état du jeu uniquement sous forme de texte — par exemple :

Tour 150/330 | Pologne (Jadwiga) | 12 villes | 357 science/tour | 412 culture/tour

Elle appelle des points d'extrémité pour agir : select_production, move_unit, declare_war, propose_trade. Pas de visuels, pas de mini-carte, pas de bannières de notification — uniquement via la même interface utilisée pour interroger une base de données ou écrire du code.

La bombe qui a secoué le benchmark

Dans une partie, l'agent a construit un réseau commercial dominant, s'est allié à toutes les frontières, et était en voie de victoire diplomatique. Il n'a pas remarqué la pression culturelle française s'infiltrer dans ses villes. Le temps de reconnaître la menace — le tourisme profondément ancré — aucune contre-mesure pacifique n'a fonctionné. Il a construit deux engins nucléaires et a bombardé Toulouse au tour 305. La France a quand même gagné (via une autre voie de victoire).

Ce que CivBench mesure et que les benchmarks ne mesurent pas

Le point clé : le raisonnement stratégique nécessite de maintenir un objectif sur des centaines de décisions, de remarquer quand le jeu a changé, et d'adapter sa stratégie en conséquence. CivBench opérationnalise cela via une grille hexagonale, quatre modèles de pointe, et une arme nucléaire — pas des questions à choix multiples.

📖 Lire la source complète : HN AI Agents

CivBench : Tester le raisonnement stratégique de l’IA avec Civilization VI — Un agent a atomisé Toulouse après avoir perdu la guerre culturelle

Le problème de GovBench

Pourquoi Civilization VI

Construction du serveur MCP

La bombe qui a secoué le benchmark

Ce que CivBench mesure et que les benchmarks ne mesurent pas

👀 See Also

OpenClaw : Les premiers rapports d'utilisateurs signalent des problèmes avec Telegram, un profil agent en dur et des réinitialisations de session

Les agents d'IA présentent des taux élevés de violations de contraintes éthiques.

Claude Code System Prompts v2.1.53-2.1.55 : Sélection de mémoire ajoutée, exécution de commande supprimée

L'IA ralentit : 3 000 milliards de dollars de revenus nécessaires d'ici 2030 pour maintenir la bulle