GLM-5-Turbo: Erro de Apenas 0,57% em Chamadas de Ferramentas

O modelo z-ai/glm-5-turbo está mostrando desempenho promissor para aplicações de chamada de ferramentas, de acordo com testes de usuários compartilhados no r/LocalLLaMA.

Resultados de Benchmark

Os testes indicam que o modelo alcança uma taxa de erro em chamadas de ferramentas muito baixa, de 0,57% em média. Isso representa uma melhoria significativa em relação ao modelo padrão GLM-5, que apresenta aproximadamente 3% de taxa de erro - tornando o GLM-5-turbo cerca de 6 vezes mais preciso para tarefas de chamada de ferramentas.

Quando comparado com modelos de outros provedores:

Os modelos da Anthropic variam de 0,38% a 0,93%, com média de 0,67%
Os modelos da Amazon Bedrock variam de 1,48% a 1,76%, com média de 1,63%
Os modelos do Google Vertex variam de 0,99% a 2,62%, com média de 1,93%

Aplicação Prática

Um usuário testou o GLM-5-turbo com uma nova ferramenta CLI para escrever romances de fantasia e relatou melhorias substanciais em relação aos modelos anteriores. Com o GLM-5 padrão, a ferramenta era "um pouco instável quando se tratava de algo não inglês, e aleatoriamente não sabia qual comando usar corretamente em comparação com a solicitação do usuário".

Usando o GLM-5-turbo (plano Max), o usuário escreveu com sucesso 97.000 palavras com "sem instabilidade, sem travessões, capítulos conectados e as chamadas de ferramentas foram quase sempre feitas corretamente". O modelo suporta especificamente o OpenClaw bem, de acordo com a fonte.

Considerações de Uso

A fonte sugere que o GLM-5-turbo pode ser adequado para projetos paralelos que exigem assistência de codificação, mas alerta que para projetos de produção que requerem fatores mais estáveis, "parece não ser a escolha certa". O usuário também mencionou considerar o uso do NemoClaw com GLM-5-turbo em uma configuração de homelab em vez do OpenClaw.

Os dados iniciais de uso no Openrouter mostram bons números para os primeiros 100B tokens, embora métricas específicas não tenham sido fornecidas na fonte.

📖 Leia a fonte completa: r/LocalLLaMA

GLM-5-Turbo Apresenta Baixa Taxa de Erro em Chamadas de Ferramentas em Testes com Usuários

Resultados de Benchmark

Aplicação Prática

Considerações de Uso

👀 See Also

OMAR: TUI de Código Aberto para Gerenciar Centenas de Agentes de Codificação de IA Hierarquicamente

Substituindo pipelines de recuperação complexos por comandos simples do git para agentes de IA

MLJAR Studio: Analista de Dados de IA Local que Gera Notebooks Reprodutíveis

ProofShot: CLI para Agentes de IA Verificarem Código de UI com Gravação de Navegador