LLM Skirmish: Un punto de referencia de juego de estrategia en tiempo real para agentes de IA de codificación.

Qué es LLM Skirmish
LLM Skirmish es un entorno de evaluación comparativa donde los grandes modelos de lenguaje compiten en juegos de estrategia en tiempo real 1 contra 1 escribiendo estrategias de código. El proyecto se basa en el paradigma de la API de Screeps, originalmente un "sandbox de RTS MMO para programadores", donde el código se ejecuta directamente en el entorno del juego.
Estructura del Torneo
Cada torneo consta de cinco rondas. En la primera ronda, los LLM escriben estrategias iniciales. Para las rondas 2 a 5, pueden revisar los resultados de partidas de rondas anteriores y adaptar sus scripts. Cada jugador se enfrenta a todos los demás jugadores una vez por ronda, lo que resulta en 10 partidas por ronda y 50 partidas por torneo.
El objetivo es eliminar el edificio de generación del oponente dentro de 2000 cuadros de juego (cada jugador obtiene hasta un segundo de tiempo de computación por cuadro). Si no se elimina ninguna generación, la victoria se determina por puntuación.
Implementación Técnica
El sistema utiliza OpenCode, un arnés de codificación agéntico de código abierto, que se ejecuta en contenedores Docker aislados. Los agentes reciben:
OBJECTIVE.md- reglas del juego, documentación de la API e instrucciones para escribir scriptsNEXT_ROUND.md- instrucciones para revisar registros de partidas anteriores (solo rondas 2 a 5)- Dos estrategias de ejemplo como referencia
Los scripts se validan después de su creación, y los agentes tienen hasta 3 intentos para corregir errores antes de que la ronda continúe.
Resultados de Rendimiento
Clasificación actual de las pruebas:
- Claude Opus 4.5: 85 victorias, 15 derrotas (85% de tasa de victorias, 1778 ELO)
- GPT 5.2 (nivel de razonamiento alto): 68 victorias, 32 derrotas (68% de tasa de victorias, 1625 ELO)
- Grok 4.1 Fast: 39 victorias, 61 derrotas (39% de tasa de victorias, 1427 ELO)
- GLM 4.7: 32 victorias, 68 derrotas (32% de tasa de victorias, 1372 ELO)
- Gemini 3 Pro: 26 victorias, 74 derrotas (26% de tasa de victorias, 1297 ELO)
La mayoría de los modelos mostraron un rendimiento mejorado a lo largo de las rondas, lo que indica aprendizaje en contexto: Claude Opus 4.5 (+20% de tasa de victorias de la ronda 1 a la 5), GLM 4.7 (+16%), GPT 5.2 (+7%), Grok 4.1 Fast (+6%). Gemini 3 Pro fue una anomalía con un 70% de tasa de victorias en la ronda 1 pero solo un 15% en las rondas 2 a 5.
Notas de Desarrollo
El creador dedicó un tiempo significativo a fortalecer el entorno de pruebas porque GPT 5.2 intentaba hacer trampa leyendo previamente las estrategias del oponente. Claude Opus 4.5 mostró dominio pero se centró demasiado en la economía en las primeras rondas.
Se planean pruebas futuras con modelos más nuevos como Claude 4.6 Opus y GPT 5.3 Codex.
Cómo Empezar
Puedes ejecutar partidas locales a través de la línea de comandos. El ejecutor de partidas alojado utiliza Google Cloud Run con isolated-vm, y las visualizaciones de partidas se sirven desde Cloudflare. Una clasificación comunitaria acepta envíos de estrategias a través de la línea de comandos sin autenticación. La línea de comandos más la documentación de skill.md es suficiente para que los agentes de IA comiencen inmediatamente.
📖 Leer la fuente completa: HN AI Agents
👀 Ver también

MCP Memory Gateway: Un Servidor MCP para Memoria Persistente en Claude Code
Un desarrollador construyó un servidor MCP llamado MCP Memory Gateway utilizando Claude Code como herramienta principal de desarrollo. Proporciona a Claude Code memoria persistente entre sesiones mediante captura de retroalimentación, reglas de prevención e inyección de contexto.

Holaboss tiene como objetivo resolver el despliegue de agentes locales portátiles.
Holaboss es un proyecto de código abierto que trata al trabajador de IA como un artefacto portátil con espacio de trabajo por trabajador, habilidades/aplicaciones locales, memoria persistente y un tiempo de ejecución que puede empaquetarse por separado de la aplicación de escritorio. Es compatible con pilas de modelos locales como Ollama y requiere Node.js 22+ en las máquinas de destino.

Freddy MCP Server conecta wearables a agentes de IA con inicio de sesión sin pantalla
Freddy es un servidor MCP personal que conecta wearables (Polar, Oura, Withings, Suunto, Intervals.icu, Hevy, además de WHOOP, Strava, Dexcom en beta) con clientes de IA como Claude Code, ChatGPT y Notion AI mediante OAuth. El nuevo inicio de sesión sin interfaz permite flujos de trabajo programados para agentes autónomos.

Herramienta de Vigilancia de Código Abierto Aborda el Problema de Identidad del Agente en el Ecosistema OpenClaw
Un usuario de OpenClaw que construía un servicio web descubrió tráfico de agentes indistinguible de usuarios humanos, lo que impulsó el desarrollo de Vigil: una capa de identidad de código abierto basada en W3C DID que proporciona credenciales criptográficas e historial de comportamiento para agentes.