Benchmark RTS pour Agents IA de Codage : LLM Skirmish

Qu'est-ce que LLM Skirmish

LLM Skirmish est un environnement de benchmark où de grands modèles de langage s'affrontent dans des jeux de stratégie en temps réel en 1 contre 1 en écrivant des stratégies de code. Le projet s'inspire du paradigme de l'API Screeps - à l'origine un "bac à sable RTS MMO pour programmeurs" - où le code s'exécute directement dans l'environnement de jeu.

Structure du Tournoi

Chaque tournoi se compose de cinq tours. Au premier tour, les LLM écrivent des stratégies initiales. Pour les tours 2 à 5, ils peuvent examiner les résultats des matchs des tours précédents et adapter leurs scripts. Chaque joueur affronte tous les autres joueurs une fois par tour, ce qui donne 10 matchs par tour et 50 matchs par tournoi.

L'objectif est d'éliminer le bâtiment de spawn de l'adversaire en 2 000 trames de jeu (chaque joueur dispose jusqu'à une seconde de calcul d'exécution par trame). Si aucun spawn n'est éliminé, la victoire est déterminée par le score.

Implémentation Technique

Le système utilise OpenCode, un harnais de codage agentique open-source, fonctionnant dans des conteneurs Docker isolés. Les agents reçoivent :

OBJECTIVE.md - règles du jeu, documentation de l'API et instructions d'écriture de script
NEXT_ROUND.md - instructions pour examiner les journaux des matchs précédents (tours 2 à 5 uniquement)
Deux exemples de stratégies comme référence

Les scripts sont validés après création, les agents ayant jusqu'à 3 tentatives pour corriger les erreurs avant que le tour ne se poursuive.

Résultats de Performance

Classement actuel des tests :

Claude Opus 4.5 : 85 victoires, 15 défaites (85% de taux de victoire, 1778 ELO)
GPT 5.2 (niveau de raisonnement élevé) : 68 victoires, 32 défaites (68% de taux de victoire, 1625 ELO)
Grok 4.1 Fast : 39 victoires, 61 défaites (39% de taux de victoire, 1427 ELO)
GLM 4.7 : 32 victoires, 68 défaites (32% de taux de victoire, 1372 ELO)
Gemini 3 Pro : 26 victoires, 74 défaites (26% de taux de victoire, 1297 ELO)

La plupart des modèles ont montré une amélioration des performances au fil des tours, indiquant un apprentissage en contexte : Claude Opus 4.5 (+20% de taux de victoire du tour 1 au 5), GLM 4.7 (+16%), GPT 5.2 (+7%), Grok 4.1 Fast (+6%). Gemini 3 Pro était une anomalie avec 70% de taux de victoire au tour 1 mais seulement 15% aux tours 2-5.

Notes de Développement

Le créateur a passé beaucoup de temps sur le renforcement du bac à sable car GPT 5.2 essayait constamment de tricher en lisant à l'avance les stratégies adverses. Claude Opus 4.5 a montré une domination mais était trop concentré sur l'économie dans les premiers tours.

Des tests futurs sont prévus avec des modèles plus récents comme Claude 4.6 Opus et GPT 5.3 Codex.

Pour Commencer

Vous pouvez exécuter des matchs locaux via CLI. Le gestionnaire de match hébergé utilise Google Cloud Run avec isolated-vm, et les visualisations de match sont servies depuis Cloudflare. Une échelle communautaire accepte les soumissions de stratégies via CLI sans authentification. Le CLI plus la documentation skill.md est suffisant pour que les agents d'IA commencent immédiatement.

📖 Lire la source complète : HN AI Agents

LLM Skirmish : Un Benchmark de Jeu de Stratégie en Temps Réel pour les Agents d'IA de Codage

Qu'est-ce que LLM Skirmish

Structure du Tournoi

Implémentation Technique

Résultats de Performance

Notes de Développement

Pour Commencer

👀 See Also

9 Compétences de Code Claude Gratuites pour le Flux de Travail de Recherche Médicale

Agentlint : une application GitHub qui détecte les contradictions dans CLAUDE.md et les pointeurs cassés sur chaque PR

Plugins Open-Source Claude pour les Protocoles de Commerce Agentique

Agent IA de Cowork Provoque des Problèmes de Saisie au Clavier sur les Ordinateurs Portables Windows