Runner de Benchmark de Código Abierto para Probar Agentes OpenClaw en Flujos de Trabajo Reales

Un usuario de Reddit ha lanzado una herramienta de código abierto llamada personal_agent_eval (repositorio: github.com/javiersgjavi/personal_agent_eval) para evaluar agentes OpenClaw en flujos de trabajo realistas y desordenados, no en conjuntos de datos públicos de juguete.
Flujo de trabajo
Define casos de prueba como archivos YAML que contienen:
- Mensajes de entrada
- Artefactos esperados
- Criterios de evaluación
- Verificaciones deterministas
- Perfiles de ejecución y perfiles de evaluación
El ejecutor procesa los casos contra una instancia real de OpenClaw, almacena los resultados, evalúa las ejecuciones y genera informes y gráficos.
Característica clave: Importación de espacio de trabajo real
Puedes importar tu espacio de trabajo real de OpenClaw — incluyendo memoria, habilidades, archivos, indicaciones y contexto — en lugar de una imitación simplificada. El agente se ejecuta en una instancia real de OpenClaw, probando exactamente el agente que usas a diario.
Conjuntos de evaluación privados
El autor explícitamente no publica sus conjuntos de evaluación privados para evitar que los puntos de referencia públicos se vuelvan obsoletos. Sin embargo, el repositorio incluye casos de ejemplo, configuraciones, perfiles de evaluación, verificaciones deterministas y generación de gráficos para que puedas construir tu propio conjunto privado.
SKILL.md para asistencia al agente
Un archivo SKILL.md en el repositorio está diseñado para darle a un agente suficiente contexto para ayudarte a definir nuevos casos de prueba, perfiles de ejecución, criterios de evaluación y verificaciones deterministas, reduciendo la edición manual.
Resultados de muestra (ejecución privada del autor)
El autor compartió una comparación de una sola ejecución (métrica no clara, probablemente promedio ponderado 0-10):
Claude Opus 4.6 - 9.44 GLM 5.1 - 9.31 GPT-5.5 - 9.31 Claude Sonnet 4.6 - 9.25 DeepSeek V4 Flash - 8.61 Gemma 4 31B - 8.39 DeepSeek V4 Pro - 8.28 Kimi K2.6 - 7.97
Más interesante que las puntuaciones: los modos de fallo. Algunos modelos razonan bien pero son torpes con las herramientas; los modelos más baratos degradan en tareas largas o con estado; algunos fallos son de comportamiento del modelo, otros son casos extremos de OpenClaw/herramientas expuestos por el punto de referencia.
Para quién es
Usuarios de OpenClaw que ejecutan agentes para trabajo real y quieren comparar modelos en sus propias tareas privadas en lugar de discutir basándose en corazonadas o tablas de clasificación genéricas.
📖 Leer la fuente completa: r/openclaw
👀 Ver también

YantrikClaw Fork agrega Memoria Cognitiva, Modo Compañero y Herramientas Conscientes de Nivel a ZeroClaw.
YantrikClaw es una bifurcación de ZeroClaw que introduce tres características principales: Memoria Cognitiva con YantrikDB para recuerdo semántico persistente, Modo Compañero con seguimiento de vínculos y comportamiento proactivo, y selección de herramientas consciente del nivel que se adapta al tamaño del modelo, desde Raspberry Pi hasta grandes clústeres.

La habilidad de escaneo de seguridad para agentes de codificación de IA verifica automáticamente las implementaciones.
Un desarrollador creó un archivo de habilidad que permite a los agentes de IA de programación escanear automáticamente sus propias implementaciones en busca de problemas de seguridad como secretos expuestos, puertos abiertos, encabezados de seguridad faltantes y código fuente filtrado. El escaneo se ejecuta después de cada implementación y tarda unos 30 segundos.

Claudlytics: Panel Autohospedado para Rastrear el Uso de Tokens de Código y Costos de Claude
Claudlytics es un servidor web Node.js que lee los archivos de sesión locales .jsonl de Claude Code para proporcionar un seguimiento en tiempo real del uso de tokens y costos. Se ejecuta localmente en 127.0.0.1 y se puede acceder a través de un túnel SSH para servidores remotos.

Blitz: Herramienta de Código Claude para Envíos a la App Store
Blitz es una herramienta gratuita que permite a Claude Code automatizar los envíos a la App Store mediante llamadas a herramientas MCP. Los usuarios pueden pedirle a Claude que 'envíe mi aplicación a la app store' para gestionar certificados, capturas de pantalla y formularios de App Store Connect.