Qwen 3.6 27B avaliado no DeepSWE: 2% de pontuação, 70 horas, 44k tokens médios de saída

✍️ OpenClawRadar📅 Publicado: June 22, 2026🔗 Source

Um usuário do Reddit testou o Qwen 3.6 27B no benchmark DeepSWE, obtendo 2% (1,79% arredondado) — 18º lugar entre 20, acima do Haiku 4.5 e Minimax M2.7. A execução completa levou 70 horas, com tempo médio por tarefa de 32 minutos e média de tokens de saída por tarefa de 44k — surpreendentemente equivalente ao Qwen 3.6 Plus maior, apesar da reputação do modelo 27B por ser prolixo.

Metodologia

Modelo: Qwen 3.6 27B FP8 com cache KV BF16, raciocínio ativado, janela de contexto de 262k, servido via VLLM
Hardware: 1x RTX6000 Pro Blackwell no RunPod
Harness do agente: mini-swe em sandboxes Modal
1 execução por tarefa (em vez das 4 oficiais) para economizar tempo; sem intervalo de pontuação
Custos calculados com base na taxa horária do RunPod para tarefas concluídas
Orquestração: Codex 5.5xhigh monitorou e gerenciou toda a execução

Observações Principais

O autor observa que a pontuação está suspeitamente próxima do Qwen 3.6 Plus, levantando questões sobre diferenças arquitetônicas. Ele argumenta que os modelos locais estão ficando cada vez mais para trás em relação às ofertas fechadas de ponta: K2.6 é o melhor modelo open-source, mas a maioria nem consegue executá-lo localmente. O Qwen 3.6 27B é posicionado como uma opção local de "SOTA para pobres". A tendência sugere que o desempenho de ponta requer grande escala, o que frequentemente leva ao fechamento do código, tornando a inferência local um jogo perdido em termos de competitividade.

📖 Leia a fonte original: r/LocalLLaMA

👀 See Also

News

Proposta de Roteamento de Inferência Adaptativa para Eficiência de Consultas de IA

Uma proposta enviada à Anthropic em abril de 2026 descreve um sistema de cinco etapas para direcionar consultas aos modelos de IA apropriados com base em uma pontuação de complexidade, usando sinais simples como contagem de caracteres e de frases antes que qualquer inferência do modelo ocorra.

Apr 13, 2026, 04:47 PM UTC

OpenClawRadar

News

LLM local enfrenta dificuldades com Solitaire em Unreal Engine: Qwen 3.6-27B consome 687 mil tokens em uma carta

A tentativa de um desenvolvedor de construir um jogo de Paciência na Unreal Engine usando Qwen 3.6-27B consumiu 687 mil tokens para uma única carta, exigindo intervenção manual para baixar PNGs, criar malha e muitos prompts.

Jun 22, 2026, 12:17 AM UTC

OpenClawRadar

News

Comparação de benchmark do Qwen3.6 Plus com modelos SOTA ocidentais

O Qwen3.6 Plus obteve 78,8 no SWE-bench Verified, 90,4 no GPQA/GPQA Diamond, 28,8 no HLE (sem ferramentas) e 78,8 no MMMU-Pro, posicionando-se de forma competitiva contra modelos como GPT-5.4, Claude Opus 4.6 e Gemini 3.1 Pro Preview.

Apr 5, 2026, 07:45 AM UTC

OpenClawRadar

News

Claude Code v2.1.174: Alternância de Aceleração de Roda de Rolar, Correções de /model, Suporte GovCloud e Atribuição de Uso no VSCode

Claude Code v2.1.174 adiciona configuração wheelScrollAccelerationEnabled para desabilitar aceleração de rolagem em tela cheia, corrige seletor /model que ocultava linhas Opus/Sonnet, resolve erros 400 do Bedrock GovCloud, adiciona detalhamento de atribuição de uso do VSCode e corrige herança de ambiente de sessão em segundo plano.

Jun 12, 2026, 12:15 PM UTC

OpenClawRadar