El Benchmark OpenClaw Muestra que Qwen3.5:27B Supera a Otros LLMs Locales en Tareas de Agente

Configuración y Resultados de la Evaluación Comparativa
Un usuario probó 7 modelos locales en 22 tareas reales de agentes utilizando OpenClaw en una Raspberry Pi 5 con una RTX 3090 ejecutando Ollama. Las tareas incluyeron leer correos electrónicos, programar reuniones, crear tareas, detectar phishing, manejar errores y automatización del navegador.
El ganador por un amplio margen fue qwen3.5:27b-q4_K_M con un 59.4%. El subcampeón (qwen3.5:35b) obtuvo solo un 23.2%. Todos los demás modelos obtuvieron puntajes por debajo del 5%.
Hallazgos Clave
- El modelo cuantizado de 27B superó a la versión más grande de 35B por 2.5x
- Un modelo de 30B obtuvo el último lugar con un 1.6%
- El pensamiento medio funcionó mejor: demasiado pensamiento en realidad perjudicó el rendimiento
- Ningún modelo pudo completar tareas de automatización del navegador
- El principal diferenciador entre ganadores y perdedores fue si el modelo podía encontrar y usar herramientas de línea de comandos
- La mayoría de los modelos ni siquiera pudieron encontrar herramientas básicas como la función de correo electrónico
Esta evaluación comparativa proporciona datos concretos sobre cómo diferentes LLMs locales funcionan como agentes de IA en escenarios prácticos. La brecha significativa de rendimiento entre el modelo superior y los demás sugiere que la capacidad de encontrar herramientas es un cuello de botella crítico para los agentes LLM locales.
📖 Read the full source: r/LocalLLaMA
👀 Ver también

Paquete de habilidades OpenClaw: Un conjunto de más de 2,500 comandos para operaciones autónomas reales en Ubuntu.
Un nuevo paquete de habilidades para agentes de OpenClaw AI introduce más de 2,500 habilidades de ejecución para operaciones de DevOps, como la gestión de Docker, la configuración de redes, la respuesta a CVE y la automatización de sistemas en entornos Ubuntu.

OpenClaw vs Hermes: Elige el Agente de IA Autoalojado Correcto tras Más de 100 Despliegues
Tras desplegar más de 100 agentes de IA para clientes, un usuario de Reddit comparte lecciones difíciles: OpenClaw (149K estrellas) es el caballo de batalla confiable para flotas simples/pequeñas; Hermes sobresale en orquestación multi-agente pero tiene una comunidad más pequeña.

Gobernador: Un Plugin de Claude Code para Reducir el Desperdicio de Tokens mediante Compresión de Salida, Reducción de Contexto y Filtrado de Herramientas
Governor es un plugin de Claude Code que reduce el desperdicio de tokens/contexto mediante una salida profesional compacta, compresión de archivos de memoria, filtrado de salida de herramientas y barreras de protección contra la desviación. Los benchmarks muestran un ahorro del 55.5% en tokens de salida frente al control.

LystBot: Un Servidor MCP para Claude que Gestiona Listas y Tareas
LystBot es una aplicación de gestión de listas con un servidor MCP nativo que permite a Claude interactuar directamente con listas de compras, tareas pendientes y listas de empaque. Desarrollada principalmente con Claude Code, incluye una aplicación móvil Flutter, API REST, CLI y un servidor MCP Node.js de código abierto.