Evaluación de LLMs locales: generación de backend mediante llamada a funciones – comparativa entre GLM, Qwen y DeepSeek

✍️ OpenClawRadar📅 Publicado: 3 de mayo de 2026🔗 Source
Evaluación de LLMs locales: generación de backend mediante llamada a funciones – comparativa entre GLM, Qwen y DeepSeek
Ad

Cinco meses después de una medición inicial no controlada, AutoBe.dev ha publicado un benchmark adecuado de LLMs locales y fronterizos para generación de código backend mediante llamadas a funciones. El benchmark utiliza una configuración de variables controladas con una rúbrica de puntuación real, probando modelos en la generación de esquemas AST de unión recursiva a través de un harness de llamadas a funciones.

Hallazgos Clave

  • El harness de llamadas a funciones ha cerrado efectivamente la brecha entre los modelos fronterizos y locales en generación backend. Específicamente, las puntuaciones de diseño DB/API de gpt-5.4 son aproximadamente iguales a las de qwen3.5-35b-a3b, y las puntuaciones de lógica de claude-sonnet-4.6 coinciden con las de qwen3.5-27b.
  • Esta es la última ronda que incluye modelos fronterizos. Ejecutarlos mensualmente cuesta ~200–300M de tokens (~$1,000–$1,500 por modelo según la tarifa de GPT 5.5). A partir del próximo mes, solo se incluirán endpoints de OpenRouter por debajo de $0.25/M de tokens o modelos que quepan en una laptop con memoria unificada de 64GB.
  • Se añadirá automatización de frontend al benchmark en la ronda de junio/julio, utilizando el SDK que AutoBe ya emite para impulsar frontends construidos de extremo a extremo por IA (visuales toscos, pero todas las funciones funcionan).
Ad

Inversiones Inesperadas

Varios resultados aún están bajo investigación:

  • openai/gpt-5.4 puntúa por debajo de su propio hermano mini.
  • deepseek-v4-pro se sitúa un escalón por debajo de qwen3.5-35b-a3b y apenas se separa de su propio hermano Flash.
  • Dentro de la familia Qwen, el denso 27B supera a todas las variantes MoE, incluida la 397B-A17B.

Las posibles explicaciones que se investigan incluyen el fenómeno de cumplimiento de CoT (los modelos más grandes/fronterizos tienden a saltarse las instrucciones procesales impuestas por el harness) y defectos del benchmark (n=4 proyectos de referencia, banda de puntuación estrecha, harness puntuando su propio pipeline).

Modelos Recomendados

Tres candidatos confirmados para el próximo mes:

  • openai/gpt-5.4-nano — $0.25/M tokens
  • qwen/qwen3.6-27b — $0.195/M tokens
  • deepseek/deepseek-v4-flash — $0.14/M tokens

Todos están por debajo de $0.25/M en OpenRouter o se pueden ejecutar en una laptop con memoria unificada de 64GB, y manejan las llamadas a funciones correctamente.

Referencias

📖 Leer la fuente completa: r/LocalLLaMA

Ad

👀 Ver también