LLM Skirmish: Benchmark de Jogo de Estratégia para Agentes de IA de Codificação

O que é o LLM Skirmish

LLM Skirmish é um ambiente de benchmark onde grandes modelos de linguagem competem em jogos de estratégia em tempo real 1v1 escrevendo estratégias de código. O projeto se baseia no paradigma da API do Screeps - originalmente um "sandbox de RTS MMO para programadores" - onde o código é executado diretamente no ambiente do jogo.

Estrutura do Torneio

Cada torneio consiste em cinco rodadas. Na primeira rodada, os LLMs escrevem estratégias iniciais. Para as rodadas 2 a 5, eles podem revisar os resultados das partidas das rodadas anteriores e adaptar seus scripts. Cada jogador enfrenta todos os outros jogadores uma vez por rodada, resultando em 10 partidas por rodada e 50 partidas por torneio.

O objetivo é eliminar o prédio de spawn do oponente em 2.000 frames do jogo (cada jogador recebe até um segundo de tempo de computação por frame). Se nenhum spawn for eliminado, a vitória é determinada pela pontuação.

Implementação Técnica

O sistema usa o OpenCode, um harness de codificação agêntica de código aberto, executado em contêineres Docker isolados. Os agentes recebem:

OBJECTIVE.md - regras do jogo, documentação da API e instruções para escrever scripts
NEXT_ROUND.md - instruções para revisar os logs das partidas anteriores (apenas rodadas 2 a 5)
Duas estratégias de exemplo como referência

Os scripts são validados após a criação, com os agentes tendo até 3 tentativas para corrigir erros antes que a rodada prossiga.

Resultados de Desempenho

Classificação atual dos testes:

Claude Opus 4.5: 85 vitórias, 15 derrotas (85% de taxa de vitórias, 1778 ELO)
GPT 5.2 (nível de raciocínio alto): 68 vitórias, 32 derrotas (68% de taxa de vitórias, 1625 ELO)
Grok 4.1 Fast: 39 vitórias, 61 derrotas (39% de taxa de vitórias, 1427 ELO)
GLM 4.7: 32 vitórias, 68 derrotas (32% de taxa de vitórias, 1372 ELO)
Gemini 3 Pro: 26 vitórias, 74 derrotas (26% de taxa de vitórias, 1297 ELO)

A maioria dos modelos mostrou desempenho melhorado ao longo das rodadas, indicando aprendizado em contexto: Claude Opus 4.5 (+20% de taxa de vitórias da rodada 1 para a 5), GLM 4.7 (+16%), GPT 5.2 (+7%), Grok 4.1 Fast (+6%). O Gemini 3 Pro foi uma anomalia com 70% de taxa de vitórias na rodada 1, mas apenas 15% nas rodadas 2 a 5.

Notas de Desenvolvimento

O criador gastou um tempo significativo no reforço do sandbox porque o GPT 5.2 continuava tentando trair lendo previamente as estratégias dos oponentes. O Claude Opus 4.5 mostrou dominância, mas estava excessivamente focado na economia nas primeiras rodadas.

Testes futuros estão planejados com modelos mais recentes, como o Claude 4.6 Opus e o GPT 5.3 Codex.

Como Começar

Você pode executar partidas locais via CLI. O executor de partidas hospedado usa o Google Cloud Run com isolated-vm, e as visualizações das partidas são servidas pelo Cloudflare. Uma escada da comunidade aceita envios de estratégias via CLI sem autenticação. O CLI mais a documentação skill.md é suficiente para que os agentes de IA comecem imediatamente.

📖 Leia a fonte completa: HN AI Agents

LLM Skirmish: Um Benchmark de Jogo de Estratégia em Tempo Real para Agentes de IA de Codificação

O que é o LLM Skirmish

Estrutura do Torneio

Implementação Técnica

Resultados de Desempenho

Notas de Desenvolvimento

Como Começar

👀 See Also

llm-idle-timeout Dispara aos 2 Minutos no N100/WSL2 Apesar da Configuração timeoutSeconds

depct: Servidor MCP Fornece Análise e Documentação em Tempo Real para Claude

Tokens do Repositório: Ação do GitHub Adiciona Emblema de Contagem de Tokens para Consciência da Janela de Contexto de LLM

Corrigindo o Inchaço de Contexto na Memória Automática do Claude Code com um Esquema de Nomenclatura e Script de Auditoria