Qwen 3.6 27B F16 passa no teste de codificação Pacman, mas quantizações de 8 bits falham — Lições-chave sobre templates e decodificação especulativa MTP

Um desenvolvedor no r/LocalLLaMA compartilhou um benchmark prático de código: criar um clone do Pacman em uma única página a partir de um bom prompt, três tentativas, ficar com o melhor. O Qwen 3.6 27B F16 produziu dois jogos quase perfeitos — o primeiro modelo local a ter sucesso. No entanto, reduzir para quantização de 8 bits tornou os bons resultados irreproduzíveis mesmo após cinco tentativas, reforçando a afirmação de que quant de 8 bits não é sem perdas para tarefas generativas complexas.
Principais descobertas técnicas do post:
- O template de chat é crítico: O template de chat oficial do Qwen é ajustado para vLLM e contém erros no llama.cpp e outros runners. O autor corrigiu bugs iterativamente e, após o ajuste fino, o modelo parecia "um novo nível de inteligência".
- A decodificação especulativa MTP varia de acordo com a tarefa: Para tarefas determinísticas como codificação, os tok/s generativos variaram de 8 a 18 tok/s (linha de base sem MTP: 6,6 tok/s). Tarefas criativas têm menos aceleração.
- A escolha do harness afeta mais a velocidade do que a qualidade do código: O Qwen CLI teve um desempenho surpreendentemente bom — comparável ao Claude Code em qualidade de saída, mas muito mais rápido porque os prompts extras do Claude Code tornam os modelos locais lentos. Com um modelo lento como o Qwen 3.6 27B a ~6 tok/s, cada prompt extra adiciona latência dolorosa.
- Não interfira no gerenciamento de contexto: O cache de contexto nativo e a compactação do modelo funcionam bem. Plugins ou ferramentas que manipulam cache ou contexto confundem o modelo e degradam o desempenho.
- Chamadas de ferramenta e subagentes funcionam perfeitamente após correções adequadas no template de chat. Compactação de contexto, uso de shell e subagentes paralelos funcionam como esperado.
O autor alerta que sua experiência depende muito da configuração do runner: use pesos F16, um template de chat corrigido e evite harnesses pesados, a menos que você tenha inferência rápida. O resultado completo do Pacman jogável está disponível em guigand.com/pacman.
📖 Leia a fonte completa: r/LocalLLaMA
👀 See Also

Revisão: Editor de IA Construído com Ferramentas de Codificação Agêntica e Y.js CRDT
Revise é um editor de IA para documentos construído do zero ao longo de 10 meses usando ferramentas de codificação agentic, com um motor de processador de texto personalizado e camada de renderização que usa apenas Y.js para a pilha CRDT. Ele integra múltiplos modelos de IA, incluindo variantes do GPT-5.4 e modelos Claude para revisão e correção.

Servidor de Base de Conhecimento de Código Aberto e Orquestrador Multiagente para Memória IA Persistente
Um desenvolvedor criou um servidor MCP personalizado em um VPS privado para dar memória persistente ao Claude, Codex e Gemini entre sessões, com um servidor de base de conhecimento que ingere vaults do Obsidian e um orquestrador multiagente chamado Daniel para failover.

Servidor MCP de código aberto permite que agentes de IA processem pagamentos L402 via Lightning Network
Um plugin MCP Python construído com FastMCP intercepta respostas HTTP 402 Pagamento Necessário, paga faturas da Lightning Network e recupera dados para agentes de IA. O repositório inclui um dummy-agent local para testes sem gastar fundos reais.

Sistema de controle de coerência em tempo real nativo do navegador para Claude com bandas SDE e filtragem de Kalman
Um desenvolvedor criou um sistema de controle de coerência em tempo real que funciona completamente como um artefato Claude no navegador, tratando a conversa como um processo estocástico com caminhos SDE de Monte Carlo ao vivo, filtragem dupla de Kalman e detecção de sinais comportamentais.