Benchmark Local LLM: Geração de Backend por Chamada de Função – Comparação entre GLM, Qwen e DeepSeek

Cinco meses após uma medição inicial descontrolada, o AutoBe.dev publicou um benchmark adequado de LLMs locais e de fronteira para geração de código backend usando chamada de função. O benchmark utiliza uma configuração de variáveis controladas com uma rubrica de pontuação real, testando modelos na geração de esquemas AST de união recursiva por meio de um harness de chamada de função.
Principais Conclusões
- O harness de chamada de função efetivamente fechou a lacuna entre modelos de fronteira e locais na geração backend. Especificamente, as pontuações de design de DB/API do
gpt-5.4são aproximadamente iguais às doqwen3.5-35b-a3b, e as pontuações de lógica doclaude-sonnet-4.6equivalem às doqwen3.5-27b. - Esta é a última rodada incluindo modelos de fronteira. Executá-los mensalmente custa cerca de 200–300 milhões de tokens (~$1.000–$1.500 por modelo no preço do GPT 5.5). A partir do próximo mês, apenas endpoints do OpenRouter abaixo de $0,25/M tokens ou modelos que cabem em um laptop com memória unificada de 64 GB serão incluídos.
- A automação de frontend será adicionada ao benchmark na rodada de junho/julho, usando o SDK que o AutoBe já emite para conduzir frontends construídos por IA de ponta a ponta (visuais rústicos, mas todas as funções funcionam).
Inversões Inesperadas
Vários resultados ainda estão sob investigação:
openai/gpt-5.4pontua abaixo de seu próprio irmãomini.deepseek-v4-profica um degrau abaixo deqwen3.5-35b-a3be mal se separa de seu próprio irmãoFlash.- Na família Qwen, o denso 27B supera todas as variantes MoE, incluindo 397B-A17B.
Possíveis explicações sendo investigadas incluem o fenômeno de conformidade com CoT (modelos maiores/de fronteira tendem a pular instruções processuais impostas pelo harness) e defeitos do benchmark (n=4 projetos de referência, faixa de pontuação estreita, harness pontuando seu próprio pipeline).
Modelos Recomendados
Três candidatos confirmados para o próximo mês:
openai/gpt-5.4-nano— $0,25/M tokensqwen/qwen3.6-27b— $0,195/M tokensdeepseek/deepseek-v4-flash— $0,14/M tokens
Todos estão abaixo de $0,25/M no OpenRouter ou podem ser executados em um laptop com memória unificada de 64 GB, e lidam com chamada de função de forma limpa.
Referências
- Painel do Benchmark: https://autobe.dev/benchmark/
- Resultados de Geração: GitHub: autobe-examples
- Repositório GitHub: https://github.com/wrtnlabs/autobe
📖 Leia a fonte completa: r/LocalLLaMA
👀 See Also

A Sarvam AI lança modelos de LLM de código aberto de 30B e 105B com infraestrutura de treinamento indiana.
A Sarvam AI disponibilizou em código aberto os modelos Sarvam 30B e Sarvam 105B, dois modelos de raciocínio treinados do zero na Índia com recursos computacionais fornecidos no âmbito da missão IndiaAI. Ambos os modelos utilizam arquitetura Mixture-of-Experts com roteamento esparso de especialistas e são otimizados para implantação eficiente em hardware que vai desde GPUs até laptops.

MCP é Apenas Bibliotecas Reempacotadas: Déjà Vu Novamente
Uma discussão no Reddit argumenta que o MCP da Anthropic é essencialmente uma reembalagem de bibliotecas de programação, traçando paralelos com o design da ferramenta smolagents da Hugging Face e questionando se devemos construir novos MCPs ou melhorar a documentação das bibliotecas existentes.

Análise da Campanha de Astroturfing da OpenClaw e da Valorização da Token $CLAWD
Uma investigação do Reddit revela que o crescimento viral do OpenClaw no final de janeiro foi impulsionado por uma campanha de astroturfing recursiva usando aproximadamente 400 instâncias de bots, que criaram hype para bombear o token $CLAWD para uma capitalização de mercado de US$ 16 milhões antes de cair 90%.

Alibaba Lança Plataforma de IA Wukong para Automação Empresarial
A Alibaba lançou o Wukong, uma plataforma de IA que coordena múltiplos agentes para lidar com tarefas empresariais complexas, como edição de documentos, atualização de planilhas, transcrição de reuniões e pesquisa. Atualmente, está em fase de testes beta apenas por convite.