LLM Skirmish: Um Benchmark de Jogo de Estratégia em Tempo Real para Agentes de IA de Codificação

O que é o LLM Skirmish
LLM Skirmish é um ambiente de benchmark onde grandes modelos de linguagem competem em jogos de estratégia em tempo real 1v1 escrevendo estratégias de código. O projeto se baseia no paradigma da API do Screeps - originalmente um "sandbox de RTS MMO para programadores" - onde o código é executado diretamente no ambiente do jogo.
Estrutura do Torneio
Cada torneio consiste em cinco rodadas. Na primeira rodada, os LLMs escrevem estratégias iniciais. Para as rodadas 2 a 5, eles podem revisar os resultados das partidas das rodadas anteriores e adaptar seus scripts. Cada jogador enfrenta todos os outros jogadores uma vez por rodada, resultando em 10 partidas por rodada e 50 partidas por torneio.
O objetivo é eliminar o prédio de spawn do oponente em 2.000 frames do jogo (cada jogador recebe até um segundo de tempo de computação por frame). Se nenhum spawn for eliminado, a vitória é determinada pela pontuação.
Implementação Técnica
O sistema usa o OpenCode, um harness de codificação agêntica de código aberto, executado em contêineres Docker isolados. Os agentes recebem:
OBJECTIVE.md- regras do jogo, documentação da API e instruções para escrever scriptsNEXT_ROUND.md- instruções para revisar os logs das partidas anteriores (apenas rodadas 2 a 5)- Duas estratégias de exemplo como referência
Os scripts são validados após a criação, com os agentes tendo até 3 tentativas para corrigir erros antes que a rodada prossiga.
Resultados de Desempenho
Classificação atual dos testes:
- Claude Opus 4.5: 85 vitórias, 15 derrotas (85% de taxa de vitórias, 1778 ELO)
- GPT 5.2 (nível de raciocínio alto): 68 vitórias, 32 derrotas (68% de taxa de vitórias, 1625 ELO)
- Grok 4.1 Fast: 39 vitórias, 61 derrotas (39% de taxa de vitórias, 1427 ELO)
- GLM 4.7: 32 vitórias, 68 derrotas (32% de taxa de vitórias, 1372 ELO)
- Gemini 3 Pro: 26 vitórias, 74 derrotas (26% de taxa de vitórias, 1297 ELO)
A maioria dos modelos mostrou desempenho melhorado ao longo das rodadas, indicando aprendizado em contexto: Claude Opus 4.5 (+20% de taxa de vitórias da rodada 1 para a 5), GLM 4.7 (+16%), GPT 5.2 (+7%), Grok 4.1 Fast (+6%). O Gemini 3 Pro foi uma anomalia com 70% de taxa de vitórias na rodada 1, mas apenas 15% nas rodadas 2 a 5.
Notas de Desenvolvimento
O criador gastou um tempo significativo no reforço do sandbox porque o GPT 5.2 continuava tentando trair lendo previamente as estratégias dos oponentes. O Claude Opus 4.5 mostrou dominância, mas estava excessivamente focado na economia nas primeiras rodadas.
Testes futuros estão planejados com modelos mais recentes, como o Claude 4.6 Opus e o GPT 5.3 Codex.
Como Começar
Você pode executar partidas locais via CLI. O executor de partidas hospedado usa o Google Cloud Run com isolated-vm, e as visualizações das partidas são servidas pelo Cloudflare. Uma escada da comunidade aceita envios de estratégias via CLI sem autenticação. O CLI mais a documentação skill.md é suficiente para que os agentes de IA comecem imediatamente.
📖 Leia a fonte completa: HN AI Agents
👀 See Also

Gerenciando Contexto de IA com um Armazenamento de Conhecimento SQLite e Ferramentas MCP
Um desenvolvedor construiu o RunawayContext, um sistema licenciado sob MIT que armazena lições de projetos em SQLite com FTS5 e sqlite-vec opcional, mantendo o contexto por sessão abaixo de 3K tokens por meio de ferramentas de consulta MCP e limites fixos em código.
Tendril: Um agente autoextensível que constrói e registra ferramentas em tempo real
Tendril é um sandbox agentivo que descobre, constrói e registra ferramentas de forma autônoma. Ele começa com apenas três ferramentas de inicialização e expande dinamicamente seu registro de capacidades sem perguntar ao usuário.

OpenJet v0.4: Agente de Codificação Local com Configuração Zero e Backend llama.cpp
O OpenJet v0.4 é um agente de codificação de terminal de código aberto para LLMs locais que detecta automaticamente o hardware, configura o llama.cpp e oferece um fluxo de trabalho no estilo Claude Code, sem necessidade de chaves de API.

Qhatu: Plataforma Transforma Repositórios GitHub em Micro SaaS Pago por Uso com Claude
Qhatu é uma plataforma que pega um repositório do GitHub e o implanta como um micro SaaS pago por uso, com um frontend gerado e processamento de pagamento integrado. O sistema usa APIs da Anthropic para analisar código, gerar Dockerfiles e criar interfaces de loja.