Benchmark LLM Local: GLM vs Qwen vs DeepSeek em Geração de Backend

Cinco meses após uma medição inicial descontrolada, o AutoBe.dev publicou um benchmark adequado de LLMs locais e de fronteira para geração de código backend usando chamada de função. O benchmark utiliza uma configuração de variáveis controladas com uma rubrica de pontuação real, testando modelos na geração de esquemas AST de união recursiva por meio de um harness de chamada de função.

Principais Conclusões

O harness de chamada de função efetivamente fechou a lacuna entre modelos de fronteira e locais na geração backend. Especificamente, as pontuações de design de DB/API do gpt-5.4 são aproximadamente iguais às do qwen3.5-35b-a3b, e as pontuações de lógica do claude-sonnet-4.6 equivalem às do qwen3.5-27b.
Esta é a última rodada incluindo modelos de fronteira. Executá-los mensalmente custa cerca de 200–300 milhões de tokens (~$1.000–$1.500 por modelo no preço do GPT 5.5). A partir do próximo mês, apenas endpoints do OpenRouter abaixo de $0,25/M tokens ou modelos que cabem em um laptop com memória unificada de 64 GB serão incluídos.
A automação de frontend será adicionada ao benchmark na rodada de junho/julho, usando o SDK que o AutoBe já emite para conduzir frontends construídos por IA de ponta a ponta (visuais rústicos, mas todas as funções funcionam).

Inversões Inesperadas

Vários resultados ainda estão sob investigação:

openai/gpt-5.4 pontua abaixo de seu próprio irmão mini.
deepseek-v4-pro fica um degrau abaixo de qwen3.5-35b-a3b e mal se separa de seu próprio irmão Flash.
Na família Qwen, o denso 27B supera todas as variantes MoE, incluindo 397B-A17B.

Possíveis explicações sendo investigadas incluem o fenômeno de conformidade com CoT (modelos maiores/de fronteira tendem a pular instruções processuais impostas pelo harness) e defeitos do benchmark (n=4 projetos de referência, faixa de pontuação estreita, harness pontuando seu próprio pipeline).

Modelos Recomendados

Três candidatos confirmados para o próximo mês:

openai/gpt-5.4-nano — $0,25/M tokens
qwen/qwen3.6-27b — $0,195/M tokens
deepseek/deepseek-v4-flash — $0,14/M tokens

Todos estão abaixo de $0,25/M no OpenRouter ou podem ser executados em um laptop com memória unificada de 64 GB, e lidam com chamada de função de forma limpa.