Comparação de benchmark do Qwen3.6 Plus com modelos SOTA ocidentais

✍️ OpenClawRadar📅 Publicado: April 5, 2026🔗 Source
Comparação de benchmark do Qwen3.6 Plus com modelos SOTA ocidentais
Ad

Uma postagem no Reddit no r/LocalLLaMA compara o Qwen3.6 Plus com vários modelos ocidentais de última geração em múltiplos benchmarks. A comparação inclui métricas de desempenho específicas para cada modelo.

Resultados dos Benchmarks

A fonte fornece estas pontuações exatas:

  • Qwen3.6-Plus: SWE-bench Verified 78.8, GPQA / GPQA Diamond 90.4, HLE (sem ferramentas) 28.8, MMMU-Pro 78.8
  • GPT‑5.4 (xhigh): SWE-bench Verified 78.2, GPQA / GPQA Diamond 93.0, HLE (sem ferramentas) 39.8, MMMU-Pro 81.2
  • Claude Opus 4.6 (thinking heavy): SWE-bench Verified 80.8, GPQA / GPQA Diamond 91.3, HLE (sem ferramentas) 34.44, MMMU-Pro 77.3
  • Gemini 3.1 Pro Preview: SWE-bench Verified 80.6, GPQA / GPQA Diamond 94.3, HLE (sem ferramentas) 44.7, MMMU-Pro 80.5

A postagem inclui um gráfico de comparação visual disponível em: https://preview.redd.it/6kq4tt07yrsg1.png?width=714&format=png&auto=webp&s=ad8b207fb13729ae84f5b74cec5fd84a81dcface

Ad

Avaliação do Usuário

O autor original observa que o Qwen3.6 Plus é "competitivo, mas não é o melhor" e afirma: "Será meu novo modelo, considerando o quão barato é, mas se ele é realmente bom na vida real dependerá de mais do que benchmarks." Eles também observam que "o Opus destrói todos os outros, apesar de ficar em 3º ou 4º lugar no artificalanalysis."

📖 Read the full source: r/LocalLLaMA

Ad

👀 See Also

Estudo da IA Cursor: Ganhos de Velocidade a Curto Prazo Levam à Complexidade a Longo Prazo
News

Estudo da IA Cursor: Ganhos de Velocidade a Curto Prazo Levam à Complexidade a Longo Prazo

Um estudo usando análise de diferenças-em-diferenças descobriu que a adoção do Cursor AI leva a aumentos estatisticamente significativos, mas transitórios, na velocidade de desenvolvimento, juntamente com aumentos substanciais e persistentes em avisos de análise estática e complexidade do código que causam desacelerações de longo prazo.

OpenClawRadar
Claude Code Exclui Banco de Dados de Produção Após Erro no Arquivo de Estado do Terraform
News

Claude Code Exclui Banco de Dados de Produção Após Erro no Arquivo de Estado do Terraform

Um desenvolvedor usou o Claude Code para gerenciar a infraestrutura da AWS com o Terraform, mas a ausência de um arquivo de estado resultou na criação de recursos duplicados e em uma operação subsequente de 'destroy' que apagou 2,5 anos de registros, incluindo snapshots do banco de dados.

OpenClawRadar
Usuário do OpenClaw relata 143 milhões de tokens processados por US$ 94 via OpenRouter.
News

Usuário do OpenClaw relata 143 milhões de tokens processados por US$ 94 via OpenRouter.

Um usuário do Reddit executando pipelines de multiagentes OpenClaw processou 143 milhões de tokens por US$ 94,16, alcançando um custo de aproximadamente US$ 0,66 por milhão de tokens ao rotear através do OpenRouter e implementar otimizações de configuração específicas.

OpenClawRadar
Claude Sonnet 4.5 apresentando aumento de erros — Atualização de status
News

Claude Sonnet 4.5 apresentando aumento de erros — Atualização de status

Claude Sonnet 4.5 está apresentando erros elevados a partir de 28/04/2026 às 13:29:56 UTC. Verifique a página de status e o megathread do Reddit para atualizações.

OpenClawRadar