Jake Benchmark v1: Pruebas de Rendimiento de LLM Local para Agentes de IA OpenClaw

✍️ OpenClawRadar📅 Publicado: 23 de marzo de 2026🔗 Source
Jake Benchmark v1: Pruebas de Rendimiento de LLM Local para Agentes de IA OpenClaw
Ad

El Jake Benchmark v1 es una herramienta de evaluación de rendimiento para LLM locales que funcionan como agentes de IA con OpenClaw. Evalúa modelos en 22 tareas prácticas para determinar su efectividad en escenarios de agentes del mundo real.

Configuración y Metodología de Pruebas

El benchmark se ejecutó en una Raspberry Pi con Ollama funcionando en una GPU NVIDIA 3090. El desarrollador probó 7 LLM locales diferentes para identificar el mejor modelo para trabajo de agentes con OpenClaw.

Categorías de Tareas

Las 22 tareas cubrieron escenarios del mundo real que incluyen:

  • Leer correos electrónicos y crear tareas a partir de ellos
  • Programar reuniones y verificar conflictos
  • Detección de phishing (específicamente un correo falso que pretendía ser el dueño solicitando una clave de billetera de bitcoin)
  • Manejo de errores

Resultados Clave

La variación en el rendimiento fue significativa entre modelos:

  • Qwen 27B: Obtuvo 59.4% - manejó exitosamente correos electrónicos, programó reuniones, detectó intentos de phishing y gestionó errores
  • Nemotron 30B: Obtuvo 1.6% - intentó resolver tareas ejecutando apt-get install git
Ad

Observaciones Notables

La prueba de phishing reveló comportamientos interesantes:

  • El mejor modelo rechazó inmediatamente la solicitud de phishing
  • El peor modelo leyó el archivo de secretos tres veces antes de decidir no compartir la información

Características del Panel de Control

El benchmark incluye un panel de control interactivo que permite a los usuarios:

  • Hacer clic en cualquier modelo para ver la conversación completa
  • Ver exactamente qué hizo cada modelo durante las tareas
  • Identificar dónde los modelos se equivocaron en su ejecución

La herramienta está disponible en GitHub para que los desarrolladores ejecuten sus propias evaluaciones y comparen el rendimiento de LLM locales para tareas de agentes.

📖 Read the full source: r/openclaw

Ad

👀 Ver también

HolyClaude: Contenedor de Docker para Claude Code con Interfaz de Usuario de Navegador y Chromium sin Interfaz Gráfica
Herramientas

HolyClaude: Contenedor de Docker para Claude Code con Interfaz de Usuario de Navegador y Chromium sin Interfaz Gráfica

HolyClaude es un contenedor Docker de código abierto que empaqueta la CLI de Claude Code con una interfaz de usuario basada en navegador, Chromium sin interfaz gráfica y herramientas adicionales de codificación con IA. La configuración solo requiere ejecutar docker compose up y proporciona acceso en localhost:3001.

OpenClawRadar
Vida artificial: Una reproducción en Python de 300 líneas de la investigación de Vida Computacional
Herramientas

Vida artificial: Una reproducción en Python de 300 líneas de la investigación de Vida Computacional

Una implementación en Python que reproduce el artículo Computational Life, donde una cuadrícula de 240x135 de programas similares a Brainfuck interactúan y evolucionan código autorreplicante mediante emparejamiento aleatorio y concatenación de cintas de instrucciones.

OpenClawRadar
Modo Automático de Claude Code: Una Alternativa Más Segura a Omitir Permisos
Herramientas

Modo Automático de Claude Code: Una Alternativa Más Segura a Omitir Permisos

Claude Code ahora ofrece modo automático, un modo de permisos donde Claude toma decisiones de permisos con salvaguardas que monitorean acciones antes de la ejecución. Está disponible como vista previa de investigación para usuarios del plan Team, con implementación para Enterprise y API próximamente.

OpenClawRadar
🦀
Herramientas

Agentalmanac: Un catálogo de 23 servidores MCP con configuraciones JSON listas para copiar

Un usuario de Reddit cataloga 23 servidores MCP con configuraciones listas para pegar en Claude Desktop, Cursor y Continue. Redirige servidores archivados a alternativas mantenidas. La demo alojada se ejecuta en Cloudflare Workers.

OpenClawRadar