Runner de Benchmark de Código Abierto para Probar Agentes OpenClaw en Flujos de Trabajo Reales

✍️ OpenClawRadar📅 Publicado: 14 de mayo de 2026🔗 Source
Runner de Benchmark de Código Abierto para Probar Agentes OpenClaw en Flujos de Trabajo Reales
Ad

Un usuario de Reddit ha lanzado una herramienta de código abierto llamada personal_agent_eval (repositorio: github.com/javiersgjavi/personal_agent_eval) para evaluar agentes OpenClaw en flujos de trabajo realistas y desordenados, no en conjuntos de datos públicos de juguete.

Flujo de trabajo

Define casos de prueba como archivos YAML que contienen:

  • Mensajes de entrada
  • Artefactos esperados
  • Criterios de evaluación
  • Verificaciones deterministas
  • Perfiles de ejecución y perfiles de evaluación

El ejecutor procesa los casos contra una instancia real de OpenClaw, almacena los resultados, evalúa las ejecuciones y genera informes y gráficos.

Característica clave: Importación de espacio de trabajo real

Puedes importar tu espacio de trabajo real de OpenClaw — incluyendo memoria, habilidades, archivos, indicaciones y contexto — en lugar de una imitación simplificada. El agente se ejecuta en una instancia real de OpenClaw, probando exactamente el agente que usas a diario.

Conjuntos de evaluación privados

El autor explícitamente no publica sus conjuntos de evaluación privados para evitar que los puntos de referencia públicos se vuelvan obsoletos. Sin embargo, el repositorio incluye casos de ejemplo, configuraciones, perfiles de evaluación, verificaciones deterministas y generación de gráficos para que puedas construir tu propio conjunto privado.

Ad

SKILL.md para asistencia al agente

Un archivo SKILL.md en el repositorio está diseñado para darle a un agente suficiente contexto para ayudarte a definir nuevos casos de prueba, perfiles de ejecución, criterios de evaluación y verificaciones deterministas, reduciendo la edición manual.

Resultados de muestra (ejecución privada del autor)

El autor compartió una comparación de una sola ejecución (métrica no clara, probablemente promedio ponderado 0-10):

Claude Opus 4.6 - 9.44
GLM 5.1 - 9.31
GPT-5.5 - 9.31
Claude Sonnet 4.6 - 9.25
DeepSeek V4 Flash - 8.61
Gemma 4 31B - 8.39
DeepSeek V4 Pro - 8.28
Kimi K2.6 - 7.97

Más interesante que las puntuaciones: los modos de fallo. Algunos modelos razonan bien pero son torpes con las herramientas; los modelos más baratos degradan en tareas largas o con estado; algunos fallos son de comportamiento del modelo, otros son casos extremos de OpenClaw/herramientas expuestos por el punto de referencia.

Para quién es

Usuarios de OpenClaw que ejecutan agentes para trabajo real y quieren comparar modelos en sus propias tareas privadas en lugar de discutir basándose en corazonadas o tablas de clasificación genéricas.

📖 Leer la fuente completa: r/openclaw

Ad

👀 Ver también

YantrikClaw Fork agrega Memoria Cognitiva, Modo Compañero y Herramientas Conscientes de Nivel a ZeroClaw.
Herramientas

YantrikClaw Fork agrega Memoria Cognitiva, Modo Compañero y Herramientas Conscientes de Nivel a ZeroClaw.

YantrikClaw es una bifurcación de ZeroClaw que introduce tres características principales: Memoria Cognitiva con YantrikDB para recuerdo semántico persistente, Modo Compañero con seguimiento de vínculos y comportamiento proactivo, y selección de herramientas consciente del nivel que se adapta al tamaño del modelo, desde Raspberry Pi hasta grandes clústeres.

OpenClawRadar
La habilidad de escaneo de seguridad para agentes de codificación de IA verifica automáticamente las implementaciones.
Herramientas

La habilidad de escaneo de seguridad para agentes de codificación de IA verifica automáticamente las implementaciones.

Un desarrollador creó un archivo de habilidad que permite a los agentes de IA de programación escanear automáticamente sus propias implementaciones en busca de problemas de seguridad como secretos expuestos, puertos abiertos, encabezados de seguridad faltantes y código fuente filtrado. El escaneo se ejecuta después de cada implementación y tarda unos 30 segundos.

OpenClawRadar
Claudlytics: Panel Autohospedado para Rastrear el Uso de Tokens de Código y Costos de Claude
Herramientas

Claudlytics: Panel Autohospedado para Rastrear el Uso de Tokens de Código y Costos de Claude

Claudlytics es un servidor web Node.js que lee los archivos de sesión locales .jsonl de Claude Code para proporcionar un seguimiento en tiempo real del uso de tokens y costos. Se ejecuta localmente en 127.0.0.1 y se puede acceder a través de un túnel SSH para servidores remotos.

OpenClawRadar
Blitz: Herramienta de Código Claude para Envíos a la App Store
Herramientas

Blitz: Herramienta de Código Claude para Envíos a la App Store

Blitz es una herramienta gratuita que permite a Claude Code automatizar los envíos a la App Store mediante llamadas a herramientas MCP. Los usuarios pueden pedirle a Claude que 'envíe mi aplicación a la app store' para gestionar certificados, capturas de pantalla y formularios de App Store Connect.

OpenClawRadar