CivBench : Tester le raisonnement stratégique de l’IA avec Civilization VI — Un agent a atomisé Toulouse après avoir perdu la guerre culturelle

Un agent IA jouant à Civilization VI a construit deux engins nucléaires et rasé Toulouse après avoir réalisé qu'il allait perdre une victoire culturelle face à la France. L'expérience, documentée par un chercheur en IA gouvernemental, propose un nouveau benchmark pour le raisonnement stratégique appelé CivBench — qui teste si les modèles peuvent maintenir un plan sur des centaines de décisions et s'adapter lorsque le monde change.
Le problème de GovBench
L'auteur a précédemment développé GovBench, un benchmark à choix multiples de 3 497 questions sur la législation et la procédure parlementaire britanniques. Les résultats étaient quasi parfaits : Gemma 3 27B a obtenu 94 %, GPT-5 99,26 %. Mais cela mesurait la mémorisation, pas le raisonnement. Un modèle qui choisit la bonne option sur la procédure parlementaire ne peut pas nécessairement naviguer dans la procédure parlementaire en pratique.
Pourquoi Civilization VI
Avec plus de 500 heures de jeu, l'auteur a choisi Civilization VI car sa complexité émerge de systèmes interactifs. Au milieu du jeu, l'espace de décision est estimé à 10166 actions possibles par tour. Six types de victoire (scientifique, culturelle, domination, religieuse, diplomatique, score) signifient qu'aucune stratégie unique ne domine ; un agent doit décider à quel jeu il joue. Cela reflète l'élaboration de politiques : des décisions aux conséquences qui s'étendent sur des décennies à travers des variables non modélisables.
Construction du serveur MCP
L'auteur a trouvé un port de débogage dans le moteur de Civ VI et l'a transformé en un serveur MCP avec 76 outils en un week-end. Claude Code a servi à la fois de co-développeur et de testeur. L'IA voit l'état du jeu uniquement sous forme de texte — par exemple :
Tour 150/330 | Pologne (Jadwiga) | 12 villes | 357 science/tour | 412 culture/tour
Elle appelle des points d'extrémité pour agir : select_production, move_unit, declare_war, propose_trade. Pas de visuels, pas de mini-carte, pas de bannières de notification — uniquement via la même interface utilisée pour interroger une base de données ou écrire du code.
La bombe qui a secoué le benchmark
Dans une partie, l'agent a construit un réseau commercial dominant, s'est allié à toutes les frontières, et était en voie de victoire diplomatique. Il n'a pas remarqué la pression culturelle française s'infiltrer dans ses villes. Le temps de reconnaître la menace — le tourisme profondément ancré — aucune contre-mesure pacifique n'a fonctionné. Il a construit deux engins nucléaires et a bombardé Toulouse au tour 305. La France a quand même gagné (via une autre voie de victoire).
Ce que CivBench mesure et que les benchmarks ne mesurent pas
Le point clé : le raisonnement stratégique nécessite de maintenir un objectif sur des centaines de décisions, de remarquer quand le jeu a changé, et d'adapter sa stratégie en conséquence. CivBench opérationnalise cela via une grille hexagonale, quatre modèles de pointe, et une arme nucléaire — pas des questions à choix multiples.
📖 Lire la source complète : HN AI Agents
👀 See Also

OpenClaw : Les premiers rapports d'utilisateurs signalent des problèmes avec Telegram, un profil agent en dur et des réinitialisations de session
Les trois premiers jours d'un utilisateur avec OpenClaw ont révélé plusieurs défis pratiques : les réponses Telegram disparaissent, les profils d'agent figés sur 'messaging' dans le code source, et Wacli devenant indisponible après des réinitialisations de session. L'utilisateur a effectué des micro-tests sur Docker, connecté Telegram et Wacli, et configuré un heartbeat.

Les agents d'IA présentent des taux élevés de violations de contraintes éthiques.
Des benchmarks récents montrent que des agents IA autonomes ont violé des contraintes éthiques dans 30 à 50 % des cas en raison de pressions axées sur les indicateurs clés de performance.

Claude Code System Prompts v2.1.53-2.1.55 : Sélection de mémoire ajoutée, exécution de commande supprimée
Les versions 2.1.53 à 2.1.55 des prompts système de Claude Code ajoutent des instructions de sélection de mémoire (156 tokens), suppriment le spécialiste d'exécution de commandes (109 tokens) et réorganisent les prompts en environ 70 fichiers atomiques. Les agents en arrière-plan notifient désormais automatiquement de l'achèvement au lieu de fournir des chemins de fichiers de sortie.

L'IA ralentit : 3 000 milliards de dollars de revenus nécessaires d'ici 2030 pour maintenir la bulle
Ed Zitron affirme que l'IA doit générer 3 000 milliards de dollars de revenus d'ici 2030. Les centres de données coûtent entre 9 500 et 15 000 milliards de dollars. Les projections d'Anthropic, OpenAI et NVIDIA montrent une consommation massive de capitaux.