O Benchmark OpenClaw Mostra que o Qwen3.5:27B Supera Outros LLMs Locais em Tarefas de Agente

✍️ OpenClawRadar📅 Publicado: March 28, 2026🔗 Source

Configuração e Resultados do Benchmark

Um usuário testou 7 modelos locais em 22 tarefas reais de agentes usando OpenClaw em um Raspberry Pi 5 com uma RTX 3090 executando Ollama. As tarefas incluíram ler e-mails, agendar reuniões, criar tarefas, detectar phishing, lidar com erros e automação de navegador.

O vencedor por uma margem enorme foi qwen3.5:27b-q4_K_M com 59,4%. O segundo colocado (qwen3.5:35b) marcou apenas 23,2%. Todos os outros modelos marcaram abaixo de 5%.

Principais Descobertas

O modelo quantizado de 27B superou a versão maior de 35B em 2,5x
Um modelo de 30B ficou em último lugar com 1,6%
O pensamento médio funcionou melhor - pensar demais na verdade prejudicou o desempenho
Nenhum modelo conseguiu completar tarefas de automação de navegador
O principal diferencial entre vencedores e perdedores foi se o modelo conseguia encontrar e usar ferramentas de linha de comando
A maioria dos modelos não conseguiu nem encontrar ferramentas básicas como a função de e-mail

Este benchmark fornece dados concretos sobre como diferentes LLMs locais se comportam como agentes de IA em cenários práticos. A diferença significativa de desempenho entre o modelo superior e os outros sugere que a capacidade de encontrar ferramentas é um gargalo crítico para agentes de LLM locais.

📖 Read the full source: r/LocalLLaMA

👀 See Also

Tools

Vinext da Cloudflare: Um framework compatível com Next.js construído com IA no Vite

Engenheiros da Cloudflare reconstruíram a superfície de API do Next.js no Vite usando IA em uma semana, criando o vinext - uma substituição direta que constrói 4x mais rápido e produz pacotes 57% menores. Ele é implantado no Cloudflare Workers com um único comando.

Feb 24, 2026, 11:45 PM UTC

OpenClawRadar

Tools

Ferramenta de Raiz de Uva Reduz o Uso de Tokens de Código Claude por meio do Cache de Contexto do Repositório

Uma ferramenta experimental gratuita chamada Grape Root aborda o consumo redundante de tokens no Claude Code mantendo um estado leve sobre arquivos de repositório previamente explorados, evitando releituras desnecessárias de arquivos inalterados durante prompts subsequentes.

Apr 18, 2026, 07:45 AM UTC

OpenClawRadar

Tools

Orquestrador de Agentes Paralelos para Claude Code Usando Git Worktrees

Um desenvolvedor criou um orquestrador paralelo que usa git worktrees para criar ambientes isolados para agentes Claude Code, resolvendo o problema de diretórios de trabalho compartilhados causando aplicativos quebrados e status git confuso.

Apr 13, 2026, 04:45 PM UTC

OpenClawRadar

Tools

OpenClaw vs Hermes: Escolha o Agente de IA Auto-hospedado Certo Após Mais de 100 Implantações

Após implantar mais de 100 agentes de IA para clientes, um usuário do Reddit compartilha lições difíceis: OpenClaw (149K estrelas) é o cavalo de batalha confiável para frotas únicas/pequenas; Hermes se destaca na orquestração de múltiplos agentes, mas tem uma comunidade menor.

May 9, 2026, 08:17 AM UTC

OpenClawRadar