Benchmark Local LLM: Geração de Backend por Chamada de Função – Comparação entre GLM, Qwen e DeepSeek

✍️ OpenClawRadar📅 Publicado: May 3, 2026🔗 Source
Benchmark Local LLM: Geração de Backend por Chamada de Função – Comparação entre GLM, Qwen e DeepSeek
Ad

Cinco meses após uma medição inicial descontrolada, o AutoBe.dev publicou um benchmark adequado de LLMs locais e de fronteira para geração de código backend usando chamada de função. O benchmark utiliza uma configuração de variáveis controladas com uma rubrica de pontuação real, testando modelos na geração de esquemas AST de união recursiva por meio de um harness de chamada de função.

Principais Conclusões

  • O harness de chamada de função efetivamente fechou a lacuna entre modelos de fronteira e locais na geração backend. Especificamente, as pontuações de design de DB/API do gpt-5.4 são aproximadamente iguais às do qwen3.5-35b-a3b, e as pontuações de lógica do claude-sonnet-4.6 equivalem às do qwen3.5-27b.
  • Esta é a última rodada incluindo modelos de fronteira. Executá-los mensalmente custa cerca de 200–300 milhões de tokens (~$1.000–$1.500 por modelo no preço do GPT 5.5). A partir do próximo mês, apenas endpoints do OpenRouter abaixo de $0,25/M tokens ou modelos que cabem em um laptop com memória unificada de 64 GB serão incluídos.
  • A automação de frontend será adicionada ao benchmark na rodada de junho/julho, usando o SDK que o AutoBe já emite para conduzir frontends construídos por IA de ponta a ponta (visuais rústicos, mas todas as funções funcionam).
Ad

Inversões Inesperadas

Vários resultados ainda estão sob investigação:

  • openai/gpt-5.4 pontua abaixo de seu próprio irmão mini.
  • deepseek-v4-pro fica um degrau abaixo de qwen3.5-35b-a3b e mal se separa de seu próprio irmão Flash.
  • Na família Qwen, o denso 27B supera todas as variantes MoE, incluindo 397B-A17B.

Possíveis explicações sendo investigadas incluem o fenômeno de conformidade com CoT (modelos maiores/de fronteira tendem a pular instruções processuais impostas pelo harness) e defeitos do benchmark (n=4 projetos de referência, faixa de pontuação estreita, harness pontuando seu próprio pipeline).

Modelos Recomendados

Três candidatos confirmados para o próximo mês:

  • openai/gpt-5.4-nano — $0,25/M tokens
  • qwen/qwen3.6-27b — $0,195/M tokens
  • deepseek/deepseek-v4-flash — $0,14/M tokens

Todos estão abaixo de $0,25/M no OpenRouter ou podem ser executados em um laptop com memória unificada de 64 GB, e lidam com chamada de função de forma limpa.

Referências

📖 Leia a fonte completa: r/LocalLLaMA

Ad

👀 See Also

A Sarvam AI lança modelos de LLM de código aberto de 30B e 105B com infraestrutura de treinamento indiana.
News

A Sarvam AI lança modelos de LLM de código aberto de 30B e 105B com infraestrutura de treinamento indiana.

A Sarvam AI disponibilizou em código aberto os modelos Sarvam 30B e Sarvam 105B, dois modelos de raciocínio treinados do zero na Índia com recursos computacionais fornecidos no âmbito da missão IndiaAI. Ambos os modelos utilizam arquitetura Mixture-of-Experts com roteamento esparso de especialistas e são otimizados para implantação eficiente em hardware que vai desde GPUs até laptops.

OpenClawRadar
MCP é Apenas Bibliotecas Reempacotadas: Déjà Vu Novamente
News

MCP é Apenas Bibliotecas Reempacotadas: Déjà Vu Novamente

Uma discussão no Reddit argumenta que o MCP da Anthropic é essencialmente uma reembalagem de bibliotecas de programação, traçando paralelos com o design da ferramenta smolagents da Hugging Face e questionando se devemos construir novos MCPs ou melhorar a documentação das bibliotecas existentes.

OpenClawRadar
Análise da Campanha de Astroturfing da OpenClaw e da Valorização da Token $CLAWD
News

Análise da Campanha de Astroturfing da OpenClaw e da Valorização da Token $CLAWD

Uma investigação do Reddit revela que o crescimento viral do OpenClaw no final de janeiro foi impulsionado por uma campanha de astroturfing recursiva usando aproximadamente 400 instâncias de bots, que criaram hype para bombear o token $CLAWD para uma capitalização de mercado de US$ 16 milhões antes de cair 90%.

OpenClawRadar
Alibaba Lança Plataforma de IA Wukong para Automação Empresarial
News

Alibaba Lança Plataforma de IA Wukong para Automação Empresarial

A Alibaba lançou o Wukong, uma plataforma de IA que coordena múltiplos agentes para lidar com tarefas empresariais complexas, como edição de documentos, atualização de planilhas, transcrição de reuniões e pesquisa. Atualmente, está em fase de testes beta apenas por convite.

OpenClawRadar