GLM-5-Turbo Apresenta Baixa Taxa de Erro em Chamadas de Ferramentas em Testes com Usuários

O modelo z-ai/glm-5-turbo está mostrando desempenho promissor para aplicações de chamada de ferramentas, de acordo com testes de usuários compartilhados no r/LocalLLaMA.
Resultados de Benchmark
Os testes indicam que o modelo alcança uma taxa de erro em chamadas de ferramentas muito baixa, de 0,57% em média. Isso representa uma melhoria significativa em relação ao modelo padrão GLM-5, que apresenta aproximadamente 3% de taxa de erro - tornando o GLM-5-turbo cerca de 6 vezes mais preciso para tarefas de chamada de ferramentas.
Quando comparado com modelos de outros provedores:
- Os modelos da Anthropic variam de 0,38% a 0,93%, com média de 0,67%
- Os modelos da Amazon Bedrock variam de 1,48% a 1,76%, com média de 1,63%
- Os modelos do Google Vertex variam de 0,99% a 2,62%, com média de 1,93%
Aplicação Prática
Um usuário testou o GLM-5-turbo com uma nova ferramenta CLI para escrever romances de fantasia e relatou melhorias substanciais em relação aos modelos anteriores. Com o GLM-5 padrão, a ferramenta era "um pouco instável quando se tratava de algo não inglês, e aleatoriamente não sabia qual comando usar corretamente em comparação com a solicitação do usuário".
Usando o GLM-5-turbo (plano Max), o usuário escreveu com sucesso 97.000 palavras com "sem instabilidade, sem travessões, capítulos conectados e as chamadas de ferramentas foram quase sempre feitas corretamente". O modelo suporta especificamente o OpenClaw bem, de acordo com a fonte.
Considerações de Uso
A fonte sugere que o GLM-5-turbo pode ser adequado para projetos paralelos que exigem assistência de codificação, mas alerta que para projetos de produção que requerem fatores mais estáveis, "parece não ser a escolha certa". O usuário também mencionou considerar o uso do NemoClaw com GLM-5-turbo em uma configuração de homelab em vez do OpenClaw.
Os dados iniciais de uso no Openrouter mostram bons números para os primeiros 100B tokens, embora métricas específicas não tenham sido fornecidas na fonte.
📖 Leia a fonte completa: r/LocalLLaMA
👀 See Also

Habilidades do Claude Silenciosamente Substituem Instruções: Armadilhas Não Documentadas Expostas
Usuário descobre que Claude Skills silenciosamente impõe limites rígidos na entrada do usuário via `ask_user_input_v0` (máximo 3 perguntas, 4 opções cada), `Write` sobrescreve arquivos enquanto `create_file` recusa no Claude.ai, e caminhos relativos em `references/` não resolvem. Um repositório da comunidade cataloga descobertas.
MartinLoop: Plano de Controle Open-Source para Agentes de Codificação de IA com Limites de Orçamento e Trilhas de Auditoria
MartinLoop é um painel de controle open-source que adiciona limites de orçamento rígidos, trilhas de auditoria em JSONL, classificação de falhas e verificações de conclusão testadas a agentes de codificação de IA.

Localizador de Circuitos LLM: Duplique 3 camadas para aumentar o raciocínio sem treinamento
Um novo kit de ferramentas encontra 'circuitos de raciocínio' em modelos de transformadores - blocos contíguos de 3-4 camadas que atuam como unidades cognitivas indivisíveis. Duplicar esses blocos (camadas 12-14 no Devstral-24B) melhora a dedução lógica de 0,22 para 0,76 nos benchmarks BBH sem alterações de pesos ou treinamento.

Exportando Memórias de Agentes de IA Usando a Função de Importação do Claude
Um usuário do Reddit compartilha um prompt para extrair memórias armazenadas de agentes de IA como ChatGPT e Claude, e depois importá-las para o OpenClaw. O prompt solicita todo o contexto armazenado, incluindo instruções, detalhes pessoais, projetos, ferramentas e preferências.