Comparativa LLMs: Qwen vs GLM vs DeepSeek para backend

Cinco meses después de una medición inicial no controlada, AutoBe.dev ha publicado un benchmark adecuado de LLMs locales y fronterizos para generación de código backend mediante llamadas a funciones. El benchmark utiliza una configuración de variables controladas con una rúbrica de puntuación real, probando modelos en la generación de esquemas AST de unión recursiva a través de un harness de llamadas a funciones.

Hallazgos Clave

El harness de llamadas a funciones ha cerrado efectivamente la brecha entre los modelos fronterizos y locales en generación backend. Específicamente, las puntuaciones de diseño DB/API de gpt-5.4 son aproximadamente iguales a las de qwen3.5-35b-a3b, y las puntuaciones de lógica de claude-sonnet-4.6 coinciden con las de qwen3.5-27b.
Esta es la última ronda que incluye modelos fronterizos. Ejecutarlos mensualmente cuesta ~200–300M de tokens (~$1,000–$1,500 por modelo según la tarifa de GPT 5.5). A partir del próximo mes, solo se incluirán endpoints de OpenRouter por debajo de $0.25/M de tokens o modelos que quepan en una laptop con memoria unificada de 64GB.
Se añadirá automatización de frontend al benchmark en la ronda de junio/julio, utilizando el SDK que AutoBe ya emite para impulsar frontends construidos de extremo a extremo por IA (visuales toscos, pero todas las funciones funcionan).

Inversiones Inesperadas

Varios resultados aún están bajo investigación:

openai/gpt-5.4 puntúa por debajo de su propio hermano mini.
deepseek-v4-pro se sitúa un escalón por debajo de qwen3.5-35b-a3b y apenas se separa de su propio hermano Flash.
Dentro de la familia Qwen, el denso 27B supera a todas las variantes MoE, incluida la 397B-A17B.

Las posibles explicaciones que se investigan incluyen el fenómeno de cumplimiento de CoT (los modelos más grandes/fronterizos tienden a saltarse las instrucciones procesales impuestas por el harness) y defectos del benchmark (n=4 proyectos de referencia, banda de puntuación estrecha, harness puntuando su propio pipeline).

Modelos Recomendados

Tres candidatos confirmados para el próximo mes:

openai/gpt-5.4-nano — $0.25/M tokens
qwen/qwen3.6-27b — $0.195/M tokens
deepseek/deepseek-v4-flash — $0.14/M tokens

Todos están por debajo de $0.25/M en OpenRouter o se pueden ejecutar en una laptop con memoria unificada de 64GB, y manejan las llamadas a funciones correctamente.

Referencias

Panel del Benchmark: https://autobe.dev/benchmark/
Resultados de Generación: GitHub: autobe-examples
Repositorio de GitHub: https://github.com/wrtnlabs/autobe

📖 Leer la fuente completa: r/LocalLLaMA

Evaluación de LLMs locales: generación de backend mediante llamada a funciones – comparativa entre GLM, Qwen y DeepSeek

Hallazgos Clave

Inversiones Inesperadas

Modelos Recomendados

Referencias

👀 Ver también

OpenClaw 2026.6.6: Incorporación a OpenRouter, Control Móvil, Correcciones de Estabilidad

Infraestructura de Agentes para Operaciones PYME: Un Documento Técnico de un Operador de QSR Convertido en Desarrollador

Anthropic insta una pausa global en el desarrollo de la IA, señala el riesgo de auto-mejora

Claude Opus 4.6 rompe las referencias de archivos en CLAUDE.md