LLM Skirmish : Un Benchmark de Jeu de Stratégie en Temps Réel pour les Agents d'IA de Codage

Qu'est-ce que LLM Skirmish
LLM Skirmish est un environnement de benchmark où de grands modèles de langage s'affrontent dans des jeux de stratégie en temps réel en 1 contre 1 en écrivant des stratégies de code. Le projet s'inspire du paradigme de l'API Screeps - à l'origine un "bac à sable RTS MMO pour programmeurs" - où le code s'exécute directement dans l'environnement de jeu.
Structure du Tournoi
Chaque tournoi se compose de cinq tours. Au premier tour, les LLM écrivent des stratégies initiales. Pour les tours 2 à 5, ils peuvent examiner les résultats des matchs des tours précédents et adapter leurs scripts. Chaque joueur affronte tous les autres joueurs une fois par tour, ce qui donne 10 matchs par tour et 50 matchs par tournoi.
L'objectif est d'éliminer le bâtiment de spawn de l'adversaire en 2 000 trames de jeu (chaque joueur dispose jusqu'à une seconde de calcul d'exécution par trame). Si aucun spawn n'est éliminé, la victoire est déterminée par le score.
Implémentation Technique
Le système utilise OpenCode, un harnais de codage agentique open-source, fonctionnant dans des conteneurs Docker isolés. Les agents reçoivent :
OBJECTIVE.md- règles du jeu, documentation de l'API et instructions d'écriture de scriptNEXT_ROUND.md- instructions pour examiner les journaux des matchs précédents (tours 2 à 5 uniquement)- Deux exemples de stratégies comme référence
Les scripts sont validés après création, les agents ayant jusqu'à 3 tentatives pour corriger les erreurs avant que le tour ne se poursuive.
Résultats de Performance
Classement actuel des tests :
- Claude Opus 4.5 : 85 victoires, 15 défaites (85% de taux de victoire, 1778 ELO)
- GPT 5.2 (niveau de raisonnement élevé) : 68 victoires, 32 défaites (68% de taux de victoire, 1625 ELO)
- Grok 4.1 Fast : 39 victoires, 61 défaites (39% de taux de victoire, 1427 ELO)
- GLM 4.7 : 32 victoires, 68 défaites (32% de taux de victoire, 1372 ELO)
- Gemini 3 Pro : 26 victoires, 74 défaites (26% de taux de victoire, 1297 ELO)
La plupart des modèles ont montré une amélioration des performances au fil des tours, indiquant un apprentissage en contexte : Claude Opus 4.5 (+20% de taux de victoire du tour 1 au 5), GLM 4.7 (+16%), GPT 5.2 (+7%), Grok 4.1 Fast (+6%). Gemini 3 Pro était une anomalie avec 70% de taux de victoire au tour 1 mais seulement 15% aux tours 2-5.
Notes de Développement
Le créateur a passé beaucoup de temps sur le renforcement du bac à sable car GPT 5.2 essayait constamment de tricher en lisant à l'avance les stratégies adverses. Claude Opus 4.5 a montré une domination mais était trop concentré sur l'économie dans les premiers tours.
Des tests futurs sont prévus avec des modèles plus récents comme Claude 4.6 Opus et GPT 5.3 Codex.
Pour Commencer
Vous pouvez exécuter des matchs locaux via CLI. Le gestionnaire de match hébergé utilise Google Cloud Run avec isolated-vm, et les visualisations de match sont servies depuis Cloudflare. Une échelle communautaire accepte les soumissions de stratégies via CLI sans authentification. Le CLI plus la documentation skill.md est suffisant pour que les agents d'IA commencent immédiatement.
📖 Lire la source complète : HN AI Agents
👀 See Also

Collection Curée de Ressources OpenClaw en Open Source Dévoilée
Découvrez une nouvelle collection open source de ressources OpenClaw, organisée par la communauté pour améliorer le développement de l'IA et la collaboration.
Interface utilisateur et serveur pour les autoencodeurs en langage naturel d'Anthropic sur llama.cpp
Un serveur llama.cpp personnalisé et une interface Mikupad pour les autoencodeurs en langage naturel à poids ouverts d'Anthropic, prenant en charge l'extraction d'activations, l'explication, la reconstruction et le guidage par édition d'explications.

Construire un Agent Vocal en Moins de 500 ms : Architecture et Perspectives de Performance
Un développeur a créé un agent vocal à partir de zéro, atteignant une latence de bout en bout d'environ 400 ms avec un flux complet STT → LLM → TTS. Les idées clés incluent le traitement de la voix comme un problème de prise de tour, l'utilisation d'une détection sémantique de fin de tour et la colocalisation de tous les composants pour une latence minimale.

PhantomCrowd : Simulateur d'audience multi-agents utilisant Claude Code
PhantomCrowd est un moteur de prédiction multi-agent axé sur le marketing qui simule la réaction de véritables audiences au contenu avant sa publication. Il génère 10 à 500 personnages avec des données démographiques et des personnalités uniques, chacun réagissant indépendamment à du contenu comme des textes publicitaires ou des publications sur les réseaux sociaux.