El Benchmark OpenClaw Muestra que Qwen3.5:27B Supera a Otros LLMs Locales en Tareas de Agente

✍️ OpenClawRadar📅 Publicado: 28 de marzo de 2026🔗 Source

Configuración y Resultados de la Evaluación Comparativa

Un usuario probó 7 modelos locales en 22 tareas reales de agentes utilizando OpenClaw en una Raspberry Pi 5 con una RTX 3090 ejecutando Ollama. Las tareas incluyeron leer correos electrónicos, programar reuniones, crear tareas, detectar phishing, manejar errores y automatización del navegador.

El ganador por un amplio margen fue qwen3.5:27b-q4_K_M con un 59.4%. El subcampeón (qwen3.5:35b) obtuvo solo un 23.2%. Todos los demás modelos obtuvieron puntajes por debajo del 5%.

Hallazgos Clave

El modelo cuantizado de 27B superó a la versión más grande de 35B por 2.5x
Un modelo de 30B obtuvo el último lugar con un 1.6%
El pensamiento medio funcionó mejor: demasiado pensamiento en realidad perjudicó el rendimiento
Ningún modelo pudo completar tareas de automatización del navegador
El principal diferenciador entre ganadores y perdedores fue si el modelo podía encontrar y usar herramientas de línea de comandos
La mayoría de los modelos ni siquiera pudieron encontrar herramientas básicas como la función de correo electrónico

Esta evaluación comparativa proporciona datos concretos sobre cómo diferentes LLMs locales funcionan como agentes de IA en escenarios prácticos. La brecha significativa de rendimiento entre el modelo superior y los demás sugiere que la capacidad de encontrar herramientas es un cuello de botella crítico para los agentes LLM locales.

📖 Read the full source: r/LocalLLaMA

👀 Ver también

Herramientas

Rowboat: Compañero de IA de código abierto con memoria de gráfico de conocimiento

Rowboat es una aplicación de código abierto que transforma tu trabajo en un grafo de conocimiento vivo, almacenando datos localmente como Markdown y ofreciendo asistencia local impulsada por IA.

13 feb 2026, 03:45 UTC

OpenClawRadar

Herramientas

Construcción y Pruebas de un Servidor MCP en Claude Desktop: Arquitectura y Lecciones Aprendidas

Un desarrollador comparte su experiencia construyendo y probando un servidor MCP dentro de Claude Desktop, detallando su configuración arquitectónica y las lecciones prácticas aprendidas sobre esquemas de herramientas, depuración y limitaciones.

17 abr 2026, 20:45 UTC

OpenClawRadar

Herramientas

Realizando pruebas locales de Qwen 3.6 27B como co-agente validador de Codex

Un desarrollador construyó un conjunto de pruebas reproducible para evaluar perfiles GGUF de Qwen 3.6 27B (llama.cpp) como validador auxiliar para Codex, encontrando que los perfiles de contexto de 128k son necesarios para tareas de contexto largo y que hay una pérdida mínima de precisión con caché KV q8.

4 may 2026, 22:16 UTC

OpenClawRadar

Herramientas

sqlite-utils 4.0rc2: Escrito por Claude Fable, $149.25, corrige un error de pérdida de datos

Simon Willison lanzó sqlite-utils 4.0rc2, escrito principalmente por Claude Fable por $149.25. Fable encontró un bug de pérdida de datos en delete_where() y ayudó a reescribir el manejo de transacciones.

5 jul 2026, 12:17 UTC

OpenClawRadar