Evaluación de LLMs locales: generación de backend mediante llamada a funciones – comparativa entre GLM, Qwen y DeepSeek

Cinco meses después de una medición inicial no controlada, AutoBe.dev ha publicado un benchmark adecuado de LLMs locales y fronterizos para generación de código backend mediante llamadas a funciones. El benchmark utiliza una configuración de variables controladas con una rúbrica de puntuación real, probando modelos en la generación de esquemas AST de unión recursiva a través de un harness de llamadas a funciones.
Hallazgos Clave
- El harness de llamadas a funciones ha cerrado efectivamente la brecha entre los modelos fronterizos y locales en generación backend. Específicamente, las puntuaciones de diseño DB/API de
gpt-5.4son aproximadamente iguales a las deqwen3.5-35b-a3b, y las puntuaciones de lógica declaude-sonnet-4.6coinciden con las deqwen3.5-27b. - Esta es la última ronda que incluye modelos fronterizos. Ejecutarlos mensualmente cuesta ~200–300M de tokens (~$1,000–$1,500 por modelo según la tarifa de GPT 5.5). A partir del próximo mes, solo se incluirán endpoints de OpenRouter por debajo de $0.25/M de tokens o modelos que quepan en una laptop con memoria unificada de 64GB.
- Se añadirá automatización de frontend al benchmark en la ronda de junio/julio, utilizando el SDK que AutoBe ya emite para impulsar frontends construidos de extremo a extremo por IA (visuales toscos, pero todas las funciones funcionan).
Inversiones Inesperadas
Varios resultados aún están bajo investigación:
openai/gpt-5.4puntúa por debajo de su propio hermanomini.deepseek-v4-prose sitúa un escalón por debajo deqwen3.5-35b-a3by apenas se separa de su propio hermanoFlash.- Dentro de la familia Qwen, el denso 27B supera a todas las variantes MoE, incluida la 397B-A17B.
Las posibles explicaciones que se investigan incluyen el fenómeno de cumplimiento de CoT (los modelos más grandes/fronterizos tienden a saltarse las instrucciones procesales impuestas por el harness) y defectos del benchmark (n=4 proyectos de referencia, banda de puntuación estrecha, harness puntuando su propio pipeline).
Modelos Recomendados
Tres candidatos confirmados para el próximo mes:
openai/gpt-5.4-nano— $0.25/M tokensqwen/qwen3.6-27b— $0.195/M tokensdeepseek/deepseek-v4-flash— $0.14/M tokens
Todos están por debajo de $0.25/M en OpenRouter o se pueden ejecutar en una laptop con memoria unificada de 64GB, y manejan las llamadas a funciones correctamente.
Referencias
- Panel del Benchmark: https://autobe.dev/benchmark/
- Resultados de Generación: GitHub: autobe-examples
- Repositorio de GitHub: https://github.com/wrtnlabs/autobe
📖 Leer la fuente completa: r/LocalLLaMA
👀 Ver también

OpenClaw 2026.6.6: Incorporación a OpenRouter, Control Móvil, Correcciones de Estabilidad
OpenClaw 2026.6.6 agrega incorporación de OpenRouter de primera clase, superficies de control mejoradas para iPad/iPhone y numerosas correcciones de estabilidad en codex sandbox, MCP, navegador y respuestas de canal.

Infraestructura de Agentes para Operaciones PYME: Un Documento Técnico de un Operador de QSR Convertido en Desarrollador
Un operador de QSR con 16 años de experiencia publicó un documento técnico argumentando a favor de una capa de infraestructura faltante entre el chat genérico de IA y los paneles verticales de SaaS, con 8 habilidades en ClawHub, más de 1500 descargas y una implementación en vivo fuera de QSR.

Anthropic insta una pausa global en el desarrollo de la IA, señala el riesgo de auto-mejora
Anthropic ha pedido una pausa global en el entrenamiento de modelos de IA fronterizos, citando riesgos de sistemas que se auto-mejoran. El artículo del WSJ detalla el alcance y la justificación de la propuesta.

Claude Opus 4.6 rompe las referencias de archivos en CLAUDE.md
Los usuarios informan que Claude Opus 4.6 ya no carga automáticamente los archivos referenciados en CLAUDE.md.