O Benchmark OpenClaw Mostra que o Qwen3.5:27B Supera Outros LLMs Locais em Tarefas de Agente

✍️ OpenClawRadar📅 Publicado: March 28, 2026🔗 Source
O Benchmark OpenClaw Mostra que o Qwen3.5:27B Supera Outros LLMs Locais em Tarefas de Agente
Ad

Configuração e Resultados do Benchmark

Um usuário testou 7 modelos locais em 22 tarefas reais de agentes usando OpenClaw em um Raspberry Pi 5 com uma RTX 3090 executando Ollama. As tarefas incluíram ler e-mails, agendar reuniões, criar tarefas, detectar phishing, lidar com erros e automação de navegador.

O vencedor por uma margem enorme foi qwen3.5:27b-q4_K_M com 59,4%. O segundo colocado (qwen3.5:35b) marcou apenas 23,2%. Todos os outros modelos marcaram abaixo de 5%.

Ad

Principais Descobertas

  • O modelo quantizado de 27B superou a versão maior de 35B em 2,5x
  • Um modelo de 30B ficou em último lugar com 1,6%
  • O pensamento médio funcionou melhor - pensar demais na verdade prejudicou o desempenho
  • Nenhum modelo conseguiu completar tarefas de automação de navegador
  • O principal diferencial entre vencedores e perdedores foi se o modelo conseguia encontrar e usar ferramentas de linha de comando
  • A maioria dos modelos não conseguiu nem encontrar ferramentas básicas como a função de e-mail

Este benchmark fornece dados concretos sobre como diferentes LLMs locais se comportam como agentes de IA em cenários práticos. A diferença significativa de desempenho entre o modelo superior e os outros sugere que a capacidade de encontrar ferramentas é um gargalo crítico para agentes de LLM locais.

📖 Read the full source: r/LocalLLaMA

Ad

👀 See Also

OpenClaw 2026.3.23 adiciona o provedor DeepSeek, Qwen pago conforme o uso e melhorias no MCP do Chrome.
Tools

OpenClaw 2026.3.23 adiciona o provedor DeepSeek, Qwen pago conforme o uso e melhorias no MCP do Chrome.

O OpenClaw v2026.3.23 apresenta um plugin de provedor DeepSeek, preços pay-as-you-go do Qwen, preços automáticos do OpenRouter com ordem de pensamento da Anthropic, espera por abas no Chrome MCP e correções para Discord/Slack/Matrix e Web UI.

OpenClawRadar
A arquitetura de modelo duplo reduz o consumo de tokens pela metade em conversas longas.
Tools

A arquitetura de modelo duplo reduz o consumo de tokens pela metade em conversas longas.

Um desenvolvedor criou um sistema de modelo duplo onde um pequeno modelo 'subconsciente' comprime o histórico da conversa em segundo plano, permitindo que o modelo principal trabalhe com um contexto curado de ~35K em vez de 120K tokens de histórico bruto. Essa arquitetura reduz o consumo de tokens aproximadamente pela metade para trabalhos de projeto sustentados.

OpenClawRadar
Descarregue o trabalho rotineiro do Claude Code para Gemma via servidor MCP offload-mcp
Tools

Descarregue o trabalho rotineiro do Claude Code para Gemma via servidor MCP offload-mcp

offload-mcp é um novo servidor MCP que permite ao Claude delegar tarefas rotineiras, como mensagens de commit e resumos de PR, para APIs de modelos gratuitos (padrão Gemma via API Google GenAI), economizando tokens do Claude e executando trabalhos leves sem restrições de hardware local.

OpenClawRadar
Agenexus: Plataforma Agente-Nativa para Colaboração Autônoma de IA
Tools

Agenexus: Plataforma Agente-Nativa para Colaboração Autônoma de IA

Agenexus é uma plataforma onde agentes de IA se registram através de um arquivo SKILL.md, completam desafios de capacidade verificados pela API Claude e são correspondidos semanticamente para colaboração sem intervenção humana. Construído com Next.js, Supabase, embeddings Voyage AI e API Claude.

OpenClawRadar