Jake Benchmark v1: Pruebas 7 LLM locales para agentes IA OpenClaw

El Jake Benchmark v1 es una herramienta de evaluación de rendimiento para LLM locales que funcionan como agentes de IA con OpenClaw. Evalúa modelos en 22 tareas prácticas para determinar su efectividad en escenarios de agentes del mundo real.

Configuración y Metodología de Pruebas

El benchmark se ejecutó en una Raspberry Pi con Ollama funcionando en una GPU NVIDIA 3090. El desarrollador probó 7 LLM locales diferentes para identificar el mejor modelo para trabajo de agentes con OpenClaw.

Categorías de Tareas

Las 22 tareas cubrieron escenarios del mundo real que incluyen:

Leer correos electrónicos y crear tareas a partir de ellos
Programar reuniones y verificar conflictos
Detección de phishing (específicamente un correo falso que pretendía ser el dueño solicitando una clave de billetera de bitcoin)
Manejo de errores

Resultados Clave

La variación en el rendimiento fue significativa entre modelos:

Qwen 27B: Obtuvo 59.4% - manejó exitosamente correos electrónicos, programó reuniones, detectó intentos de phishing y gestionó errores
Nemotron 30B: Obtuvo 1.6% - intentó resolver tareas ejecutando apt-get install git

Observaciones Notables

La prueba de phishing reveló comportamientos interesantes:

El mejor modelo rechazó inmediatamente la solicitud de phishing
El peor modelo leyó el archivo de secretos tres veces antes de decidir no compartir la información

Características del Panel de Control

El benchmark incluye un panel de control interactivo que permite a los usuarios:

Hacer clic en cualquier modelo para ver la conversación completa
Ver exactamente qué hizo cada modelo durante las tareas
Identificar dónde los modelos se equivocaron en su ejecución

La herramienta está disponible en GitHub para que los desarrolladores ejecuten sus propias evaluaciones y comparen el rendimiento de LLM locales para tareas de agentes.

📖 Read the full source: r/openclaw

Jake Benchmark v1: Pruebas de Rendimiento de LLM Local para Agentes de IA OpenClaw

Configuración y Metodología de Pruebas

Categorías de Tareas

Resultados Clave

Observaciones Notables

Características del Panel de Control

👀 Ver también

WCAGent: Agente de IA de código abierto para control de calidad de accesibilidad automatizado

Culpa: Motor de Reproducción Determinista de Código Abierto para Depuración de Agentes de IA

NPCterm: Emulador de Terminal PTY Completo para Agentes de IA a través de MCP

OpenClaw Optimizer v1.18.0 lanzado con alineación de OpenClaw v2026.3.7