Qwen3.6-27B cabe em uma única GPU de 24 GB e supera o anterior 397B MoE no SWE-bench

✍️ OpenClawRadar📅 Publicado: April 29, 2026🔗 Source
Qwen3.6-27B cabe em uma única GPU de 24 GB e supera o anterior 397B MoE no SWE-bench
Ad

O Qwen3.6-27B foi lançado em 22 de abril, trazendo um modelo denso de 27B que cabe em uma única GPU de 24GB em Q4_K_M (~16,8GB) e atinge 77,2 no SWE-bench Verified — superando o modelo anterior de 397B MoE (76,2). Para desenvolvedores que executam agentes de codificação local em hardware de consumo, isso muda o patamar para modelos agentivos capazes.

Principais especificações e arquitetura

  • Contexto de 262K
  • Licença Apache 2.0
  • Atenção linear Gated DeltaNet (3 de 4 subcamadas) com Gated Attention para o restante
  • "Preservation de Pensamento" carrega vestígios de raciocínio entre turnos, reduzindo geração redundante de tokens e melhorando a eficiência do cache KV em sessões longas de agente
Ad

Requisitos de hardware

Em Q4_K_M, o modelo usa ~16,8GB de VRAM, cabendo confortavelmente em uma única placa de 24GB (ex.: RTX 3090/4090, A10G). Em contraste, o Qwen3-Coder-Next (80B MoE, 3B ativos) requer 45–80GB na mesma quantização, limitando-o a configurações de duas GPUs ou Apple Silicon com 48GB+ de memória unificada.

Ressalvas e pegadinhas

  • NÃO use CUDA 13.2 — ele produz saída incorreta. Mantenha-se no CUDA 13.1 ou 12.x.
  • Para usuários que já executam Coder-Next em hardware de 48GB+ para tarefas agentivas, a troca não é obviamente benéfica.
  • Para usuários de GPU única que estão presos a modelos de codificação locais antigos ou mais fracos, o Qwen3.6-27B é atualmente a opção mais capaz no nível de 24GB.

📖 Leia a fonte completa: r/LocalLLaMA

Ad

👀 See Also