Qwen3.6-27B cabe em uma única GPU de 24 GB e supera o anterior 397B MoE no SWE-bench

O Qwen3.6-27B foi lançado em 22 de abril, trazendo um modelo denso de 27B que cabe em uma única GPU de 24GB em Q4_K_M (~16,8GB) e atinge 77,2 no SWE-bench Verified — superando o modelo anterior de 397B MoE (76,2). Para desenvolvedores que executam agentes de codificação local em hardware de consumo, isso muda o patamar para modelos agentivos capazes.
Principais especificações e arquitetura
- Contexto de 262K
- Licença Apache 2.0
- Atenção linear Gated DeltaNet (3 de 4 subcamadas) com Gated Attention para o restante
- "Preservation de Pensamento" carrega vestígios de raciocínio entre turnos, reduzindo geração redundante de tokens e melhorando a eficiência do cache KV em sessões longas de agente
Requisitos de hardware
Em Q4_K_M, o modelo usa ~16,8GB de VRAM, cabendo confortavelmente em uma única placa de 24GB (ex.: RTX 3090/4090, A10G). Em contraste, o Qwen3-Coder-Next (80B MoE, 3B ativos) requer 45–80GB na mesma quantização, limitando-o a configurações de duas GPUs ou Apple Silicon com 48GB+ de memória unificada.
Ressalvas e pegadinhas
- NÃO use CUDA 13.2 — ele produz saída incorreta. Mantenha-se no CUDA 13.1 ou 12.x.
- Para usuários que já executam Coder-Next em hardware de 48GB+ para tarefas agentivas, a troca não é obviamente benéfica.
- Para usuários de GPU única que estão presos a modelos de codificação locais antigos ou mais fracos, o Qwen3.6-27B é atualmente a opção mais capaz no nível de 24GB.
📖 Leia a fonte completa: r/LocalLLaMA
👀 See Also

Versão Gratuita do ChatGPT Workspace Agents Termina Hoje — Comparação com OpenClaw e Hermes
A prévia gratuita dos Agentes de Workspace do ChatGPT termina em 6 de maio, quando será adotada uma precificação baseada em créditos. A postagem no Reddit compara o recurso ao OpenClaw, Hermes e plataformas gerenciadas como BetterClaw para uso em equipe versus pessoal.

O Custo Oculto do Código Gerado por IA: Depurando Espaguete
Uma postagem no Reddit captura a realidade de enviar código gerado por IA rapidamente — e depois passar semanas depurando funções inchadas, bugs de estado nulo e nomes de variáveis enigmáticos.

Gemini 3.1 Flash Live: o mais recente modelo de áudio do Google com benchmarks aprimorados e marca d'água
O Google lançou o Gemini 3.1 Flash Live, um modelo de áudio que obteve 90,8% no ComplexFuncBench Audio e 36,1% no Audio MultiChallenge da Scale AI. Ele está disponível via Gemini Live API no Google AI Studio e inclui marca d'água SynthID.

Claude-Code v2.1.47 Lançamento: Principais Correções e Melhorias
O lançamento do Claude-Code v2.1.47 traz correções cruciais para renderização de terminal Windows, manipulação de arquivos e saída de ferramentas bash, juntamente com melhorias de memória e desempenho.