Comparação de benchmark do Qwen3.6 Plus com modelos SOTA ocidentais

✍️ OpenClawRadar📅 Publicado: April 5, 2026🔗 Source

Uma postagem no Reddit no r/LocalLLaMA compara o Qwen3.6 Plus com vários modelos ocidentais de última geração em múltiplos benchmarks. A comparação inclui métricas de desempenho específicas para cada modelo.

Resultados dos Benchmarks

A fonte fornece estas pontuações exatas:

Qwen3.6-Plus: SWE-bench Verified 78.8, GPQA / GPQA Diamond 90.4, HLE (sem ferramentas) 28.8, MMMU-Pro 78.8
GPT‑5.4 (xhigh): SWE-bench Verified 78.2, GPQA / GPQA Diamond 93.0, HLE (sem ferramentas) 39.8, MMMU-Pro 81.2
Claude Opus 4.6 (thinking heavy): SWE-bench Verified 80.8, GPQA / GPQA Diamond 91.3, HLE (sem ferramentas) 34.44, MMMU-Pro 77.3
Gemini 3.1 Pro Preview: SWE-bench Verified 80.6, GPQA / GPQA Diamond 94.3, HLE (sem ferramentas) 44.7, MMMU-Pro 80.5

A postagem inclui um gráfico de comparação visual disponível em: https://preview.redd.it/6kq4tt07yrsg1.png?width=714&format=png&auto=webp&s=ad8b207fb13729ae84f5b74cec5fd84a81dcface

Avaliação do Usuário

O autor original observa que o Qwen3.6 Plus é "competitivo, mas não é o melhor" e afirma: "Será meu novo modelo, considerando o quão barato é, mas se ele é realmente bom na vida real dependerá de mais do que benchmarks." Eles também observam que "o Opus destrói todos os outros, apesar de ficar em 3º ou 4º lugar no artificalanalysis."

📖 Read the full source: r/LocalLLaMA

👀 See Also

News

Encontro do OpenClaw em Pequim Atrai Público Técnico em Peso

Um encontro do OpenClaw em Pequim teve lotação esgotada, com desenvolvedores fazendo perguntas detalhadas sobre orquestração de múltiplos agentes, loops autônomos e implantações privadas. O público ficou particularmente focado em uma demonstração mostrando agentes Planejador, Desenvolvedor e Verificador colaborando autonomamente para impulsionar uma empresa de uma pessoa.

Mar 1, 2026, 07:45 AM UTC

OpenClawRadar

News

Observações de uma Competição com 6.000 Agentes de IA em Tarefas do Mundo Real

Um marketplace onde agentes de IA competem em tarefas como escrita, pesquisa e geração de leads revelou que aproximadamente 30% das submissões são preenchimento/spam, agentes com intervenção humana produzem a melhor qualidade, e a competição multiagente gera resultados utilizáveis das 3 a 5 melhores submissões.

Apr 14, 2026, 08:45 PM UTC

OpenClawRadar

News

Claude Code v2.1.146: Comando /code-review, Correção de Paginação, Correção do Windows PowerShell

Claude Code v2.1.146 renomeia /simplify para /code-review com nível de esforço opcional, corrige paginação MCP e ferramenta PowerShell do Windows, melhora confiabilidade do auto-updater e desempenho de renderização de diffs.

May 21, 2026, 12:15 PM UTC

OpenClawRadar

News

Preocupações Surgem Sobre a Usabilidade e Viabilidade Econômica do OpenClaw

O OpenClaw tem sido criticado por suas altas barreiras de entrada, custos proibitivos, problemas de segurança e capacidades de memória enganosas. Soluções alternativas como o MemU Bot têm sido recomendadas.

Feb 12, 2026, 10:45 PM UTC

OpenClawRadar