Relatório de Campo: Qwen 3.6 27B em um MacBook Pro M2 (32GB) – Dolorosamente Lento, mas Resposta Inteligente

Um desenvolvedor no r/LocalLLaMA testou o Qwen 3.6 27B (IQ4_XS unsloth quant) em um MacBook Pro M2 com 32 GB de RAM. Como esperado, a máquina está abaixo das especificações para um modelo denso de 27B, mas o relatório de campo fornece números concretos e uma visão realista sobre desempenho e qualidade da saída.
Comando e Configuração
O modelo foi servido com llama-server usando o seguinte comando:
llama-server -m ~/models/unsloth/Qwen3.6-27B-IQ4_XS.gguf --mmproj ~/models/unsloth/Qwen3.6-27B-mmproj-BF16.gguf -c 131072 --batch-size 256 -ngl 99 -np 1 --host 127.0.0.1 --port 8899 -ctk q8_0 -ctv q8_0 --spec-type ngram-mod --spec-ngram-size-n 24 --draft-min 12 --draft-max 48
Escolhas notáveis: processo único (-np 1) para evitar sobrecarregar a GPU, decodificação especulativa com ngram-mod e uma janela de contexto de 131072 tokens.
Detalhamento de Desempenho
Velocidades iniciais: 80 t/s no processamento de prompt, 7,9 t/s na geração de tokens. Com 52.000 tokens de contexto, o desempenho caiu para 4 t/s no processamento de prompt — o que o autor confirma não ser um erro de digitação — e 3,1 t/s na geração de tokens. A pressão de memória nunca entrou na zona vermelha, indicando que o gargalo é largura de banda da memória, não swap.
Decodificação Especulativa Ineficaz
O relator habilitou a decodificação especulativa ngram-mod, mas não viu benefício real. Os logs mostraram:
accept: low acceptance streak (3) – resetting ngram_mod ... draft acceptance rate = 1.00000 ( 2 accepted / 2 generated)
O modelo reinicia constantemente devido a poucas correspondências de n-gramas; a aparente taxa de aceitação de 100% é um artefato de tamanhos de amostra muito pequenos. O autor conclui que modelos densos como este não se repetem o suficiente para a abordagem ngram-mod funcionar bem.
Qualidade do Código
Apesar da lentidão, o código gerado pelo Qwen 3.6 27B foi classificado como excelente. Ele analisou uma base de código significativa sem nenhum prompt adicional além da tarefa inicial e superou o modelo Qwen 35B A3B (MoE) em qualidade. O autor compara a saída ao que se esperaria de um Claude Sonnet auto-hospedado e observa que até o Claude Opus 4.7 ficou impressionado.
Principais Conclusões
- Largura de banda da memória domina modelos densos: No Apple Silicon, a geração de tokens caiu pela metade à medida que o contexto crescia. Mesmo sem swap, a limitação de largura de banda prejudicou o desempenho.
- Processo único é o caminho: Executar tarefas de agente simultâneas neste hardware não oferece vantagem — apenas fila serial.
- Decodificação especulativa depende do modelo: Ngram-mod não ajudou aqui; a baixa repetitividade do modelo impediu correspondências de rascunho.
O autor planeja testar o Qwen 3.6 27B em uma GPU em nuvem com especificações comparáveis à R9700 (preço atual ~$1.400 na Amazon, mais alto no eBay) para ter uma verdadeira noção de sua capacidade em suas próprias tarefas de programação.
📖 Leia a fonte completa: r/LocalLLaMA
👀 See Also

Correção de Timeout do OpenClaw LLM para Carregamento de Modelo Frio
Um usuário do Reddit identificou e corrigiu um problema específico de timeout no OpenClaw, onde LLMs locais carregados a frio falhavam após cerca de 60 segundos, mesmo com timeouts gerais mais altos configurados. A solução envolve ajustar a configuração do timeout de inatividade do LLM do embedded-runner.

3 semanas de OpenClaw: custos de token, loops e compactação — lições da trincheira
Após queimar tokens em verificações de heartbeat com Opus, lutar contra loops de agentes e perder contexto para compactação, um usuário do Reddit compartilha as correções duramente conquistadas: use modelos mais baratos para tarefas triviais, escreva regras anti-loop e salve registros de decisões.
5 Comandos do Terminal do Claude Code Que Você Pode Estar Perdendo
Um desenvolvedor sênior compartilha cinco comandos ocultos do Claude Code para o terminal: statusline personalizado, comandos shell, menções de arquivos, contexto multi-repositório e conversas paralelas.

Escrevendo Arquivos SOUL.md Eficazes para Agentes de IA de Codificação
Uma postagem do Reddit no r/openclaw demonstra a diferença entre instruções vagas e específicas no SOUL.md, mostrando que prompts específicos geram comportamentos mais úteis dos agentes de IA.