Benchmark OpenClaw: Prueba Agentes en Flujos Reales

Un usuario de Reddit ha lanzado una herramienta de código abierto llamada personal_agent_eval (repositorio: github.com/javiersgjavi/personal_agent_eval) para evaluar agentes OpenClaw en flujos de trabajo realistas y desordenados, no en conjuntos de datos públicos de juguete.

Flujo de trabajo

Define casos de prueba como archivos YAML que contienen:

Mensajes de entrada
Artefactos esperados
Criterios de evaluación
Verificaciones deterministas
Perfiles de ejecución y perfiles de evaluación

El ejecutor procesa los casos contra una instancia real de OpenClaw, almacena los resultados, evalúa las ejecuciones y genera informes y gráficos.

Característica clave: Importación de espacio de trabajo real

Puedes importar tu espacio de trabajo real de OpenClaw — incluyendo memoria, habilidades, archivos, indicaciones y contexto — en lugar de una imitación simplificada. El agente se ejecuta en una instancia real de OpenClaw, probando exactamente el agente que usas a diario.

Conjuntos de evaluación privados

El autor explícitamente no publica sus conjuntos de evaluación privados para evitar que los puntos de referencia públicos se vuelvan obsoletos. Sin embargo, el repositorio incluye casos de ejemplo, configuraciones, perfiles de evaluación, verificaciones deterministas y generación de gráficos para que puedas construir tu propio conjunto privado.

SKILL.md para asistencia al agente

Un archivo SKILL.md en el repositorio está diseñado para darle a un agente suficiente contexto para ayudarte a definir nuevos casos de prueba, perfiles de ejecución, criterios de evaluación y verificaciones deterministas, reduciendo la edición manual.

Resultados de muestra (ejecución privada del autor)

El autor compartió una comparación de una sola ejecución (métrica no clara, probablemente promedio ponderado 0-10):

Claude Opus 4.6 - 9.44
GLM 5.1 - 9.31
GPT-5.5 - 9.31
Claude Sonnet 4.6 - 9.25
DeepSeek V4 Flash - 8.61
Gemma 4 31B - 8.39
DeepSeek V4 Pro - 8.28
Kimi K2.6 - 7.97

Más interesante que las puntuaciones: los modos de fallo. Algunos modelos razonan bien pero son torpes con las herramientas; los modelos más baratos degradan en tareas largas o con estado; algunos fallos son de comportamiento del modelo, otros son casos extremos de OpenClaw/herramientas expuestos por el punto de referencia.

Para quién es

Usuarios de OpenClaw que ejecutan agentes para trabajo real y quieren comparar modelos en sus propias tareas privadas en lugar de discutir basándose en corazonadas o tablas de clasificación genéricas.

📖 Leer la fuente completa: r/openclaw

Runner de Benchmark de Código Abierto para Probar Agentes OpenClaw en Flujos de Trabajo Reales

Flujo de trabajo

Característica clave: Importación de espacio de trabajo real

Conjuntos de evaluación privados

SKILL.md para asistencia al agente

Resultados de muestra (ejecución privada del autor)

Para quién es

👀 Ver también

OpenGauge: Herramienta de código abierto para rastrear costos de agentes LLM localmente

Comandante de Flota: Panel de control de código abierto para orquestar múltiples equipos de agentes Claude Code

Pilot Shell: Una Capa de Flujo de Trabajo Estructurada para Claude Code

Visdiff: Bucle de Retroalimentación Visual para la Generación de Código Frontend de Claude