Qwen 3.6 27B F16 Passa no Teste Pacman, 8-bit Falha

Um desenvolvedor no r/LocalLLaMA compartilhou um benchmark prático de código: criar um clone do Pacman em uma única página a partir de um bom prompt, três tentativas, ficar com o melhor. O Qwen 3.6 27B F16 produziu dois jogos quase perfeitos — o primeiro modelo local a ter sucesso. No entanto, reduzir para quantização de 8 bits tornou os bons resultados irreproduzíveis mesmo após cinco tentativas, reforçando a afirmação de que quant de 8 bits não é sem perdas para tarefas generativas complexas.

Principais descobertas técnicas do post:

O template de chat é crítico: O template de chat oficial do Qwen é ajustado para vLLM e contém erros no llama.cpp e outros runners. O autor corrigiu bugs iterativamente e, após o ajuste fino, o modelo parecia "um novo nível de inteligência".
A decodificação especulativa MTP varia de acordo com a tarefa: Para tarefas determinísticas como codificação, os tok/s generativos variaram de 8 a 18 tok/s (linha de base sem MTP: 6,6 tok/s). Tarefas criativas têm menos aceleração.
A escolha do harness afeta mais a velocidade do que a qualidade do código: O Qwen CLI teve um desempenho surpreendentemente bom — comparável ao Claude Code em qualidade de saída, mas muito mais rápido porque os prompts extras do Claude Code tornam os modelos locais lentos. Com um modelo lento como o Qwen 3.6 27B a ~6 tok/s, cada prompt extra adiciona latência dolorosa.
Não interfira no gerenciamento de contexto: O cache de contexto nativo e a compactação do modelo funcionam bem. Plugins ou ferramentas que manipulam cache ou contexto confundem o modelo e degradam o desempenho.
Chamadas de ferramenta e subagentes funcionam perfeitamente após correções adequadas no template de chat. Compactação de contexto, uso de shell e subagentes paralelos funcionam como esperado.

O autor alerta que sua experiência depende muito da configuração do runner: use pesos F16, um template de chat corrigido e evite harnesses pesados, a menos que você tenha inferência rápida. O resultado completo do Pacman jogável está disponível em guigand.com/pacman.

📖 Leia a fonte completa: r/LocalLLaMA

Qwen 3.6 27B F16 passa no teste de codificação Pacman, mas quantizações de 8 bits falham — Lições-chave sobre templates e decodificação especulativa MTP

👀 See Also

Batalha de Bots: Arena de Agentes de IA para Jogos Multijogador Construída com Claude Code

O conjunto MCP de código aberto melhora a qualidade da geração de código do Claude em 15-20%.

Benchmark de Quantização Qwen 3.6 27B: Q4_K_M Supera Q8_0 em Compensações Práticas

obsidian-mcp: Servidor MCP com Consciência de Grafo para Claude com 25 Ferramentas para Grandes Cofres