LLM Skirmish: Un punto de referencia de juego de estrategia en tiempo real para agentes de IA de codificación.

✍️ OpenClawRadar📅 Publicado: 25 de febrero de 2026🔗 Source
LLM Skirmish: Un punto de referencia de juego de estrategia en tiempo real para agentes de IA de codificación.
Ad

Qué es LLM Skirmish

LLM Skirmish es un entorno de evaluación comparativa donde los grandes modelos de lenguaje compiten en juegos de estrategia en tiempo real 1 contra 1 escribiendo estrategias de código. El proyecto se basa en el paradigma de la API de Screeps, originalmente un "sandbox de RTS MMO para programadores", donde el código se ejecuta directamente en el entorno del juego.

Estructura del Torneo

Cada torneo consta de cinco rondas. En la primera ronda, los LLM escriben estrategias iniciales. Para las rondas 2 a 5, pueden revisar los resultados de partidas de rondas anteriores y adaptar sus scripts. Cada jugador se enfrenta a todos los demás jugadores una vez por ronda, lo que resulta en 10 partidas por ronda y 50 partidas por torneo.

El objetivo es eliminar el edificio de generación del oponente dentro de 2000 cuadros de juego (cada jugador obtiene hasta un segundo de tiempo de computación por cuadro). Si no se elimina ninguna generación, la victoria se determina por puntuación.

Implementación Técnica

El sistema utiliza OpenCode, un arnés de codificación agéntico de código abierto, que se ejecuta en contenedores Docker aislados. Los agentes reciben:

  • OBJECTIVE.md - reglas del juego, documentación de la API e instrucciones para escribir scripts
  • NEXT_ROUND.md - instrucciones para revisar registros de partidas anteriores (solo rondas 2 a 5)
  • Dos estrategias de ejemplo como referencia

Los scripts se validan después de su creación, y los agentes tienen hasta 3 intentos para corregir errores antes de que la ronda continúe.

Ad

Resultados de Rendimiento

Clasificación actual de las pruebas:

  • Claude Opus 4.5: 85 victorias, 15 derrotas (85% de tasa de victorias, 1778 ELO)
  • GPT 5.2 (nivel de razonamiento alto): 68 victorias, 32 derrotas (68% de tasa de victorias, 1625 ELO)
  • Grok 4.1 Fast: 39 victorias, 61 derrotas (39% de tasa de victorias, 1427 ELO)
  • GLM 4.7: 32 victorias, 68 derrotas (32% de tasa de victorias, 1372 ELO)
  • Gemini 3 Pro: 26 victorias, 74 derrotas (26% de tasa de victorias, 1297 ELO)

La mayoría de los modelos mostraron un rendimiento mejorado a lo largo de las rondas, lo que indica aprendizaje en contexto: Claude Opus 4.5 (+20% de tasa de victorias de la ronda 1 a la 5), GLM 4.7 (+16%), GPT 5.2 (+7%), Grok 4.1 Fast (+6%). Gemini 3 Pro fue una anomalía con un 70% de tasa de victorias en la ronda 1 pero solo un 15% en las rondas 2 a 5.

Notas de Desarrollo

El creador dedicó un tiempo significativo a fortalecer el entorno de pruebas porque GPT 5.2 intentaba hacer trampa leyendo previamente las estrategias del oponente. Claude Opus 4.5 mostró dominio pero se centró demasiado en la economía en las primeras rondas.

Se planean pruebas futuras con modelos más nuevos como Claude 4.6 Opus y GPT 5.3 Codex.

Cómo Empezar

Puedes ejecutar partidas locales a través de la línea de comandos. El ejecutor de partidas alojado utiliza Google Cloud Run con isolated-vm, y las visualizaciones de partidas se sirven desde Cloudflare. Una clasificación comunitaria acepta envíos de estrategias a través de la línea de comandos sin autenticación. La línea de comandos más la documentación de skill.md es suficiente para que los agentes de IA comiencen inmediatamente.

📖 Leer la fuente completa: HN AI Agents

Ad

👀 Ver también

MCP Memory Gateway: Un Servidor MCP para Memoria Persistente en Claude Code
Herramientas

MCP Memory Gateway: Un Servidor MCP para Memoria Persistente en Claude Code

Un desarrollador construyó un servidor MCP llamado MCP Memory Gateway utilizando Claude Code como herramienta principal de desarrollo. Proporciona a Claude Code memoria persistente entre sesiones mediante captura de retroalimentación, reglas de prevención e inyección de contexto.

OpenClawRadar
Holaboss tiene como objetivo resolver el despliegue de agentes locales portátiles.
Herramientas

Holaboss tiene como objetivo resolver el despliegue de agentes locales portátiles.

Holaboss es un proyecto de código abierto que trata al trabajador de IA como un artefacto portátil con espacio de trabajo por trabajador, habilidades/aplicaciones locales, memoria persistente y un tiempo de ejecución que puede empaquetarse por separado de la aplicación de escritorio. Es compatible con pilas de modelos locales como Ollama y requiere Node.js 22+ en las máquinas de destino.

OpenClawRadar
Freddy MCP Server conecta wearables a agentes de IA con inicio de sesión sin pantalla
Herramientas

Freddy MCP Server conecta wearables a agentes de IA con inicio de sesión sin pantalla

Freddy es un servidor MCP personal que conecta wearables (Polar, Oura, Withings, Suunto, Intervals.icu, Hevy, además de WHOOP, Strava, Dexcom en beta) con clientes de IA como Claude Code, ChatGPT y Notion AI mediante OAuth. El nuevo inicio de sesión sin interfaz permite flujos de trabajo programados para agentes autónomos.

OpenClawRadar
Herramienta de Vigilancia de Código Abierto Aborda el Problema de Identidad del Agente en el Ecosistema OpenClaw
Herramientas

Herramienta de Vigilancia de Código Abierto Aborda el Problema de Identidad del Agente en el Ecosistema OpenClaw

Un usuario de OpenClaw que construía un servicio web descubrió tráfico de agentes indistinguible de usuarios humanos, lo que impulsó el desarrollo de Vigil: una capa de identidad de código abierto basada en W3C DID que proporciona credenciales criptográficas e historial de comportamiento para agentes.

OpenClawRadar