Qwen 3.6 27B no M2: Benchmark Mostra 7,9 t/s e Crise de Largura de Banda

Um desenvolvedor no r/LocalLLaMA testou o Qwen 3.6 27B (IQ4_XS unsloth quant) em um MacBook Pro M2 com 32 GB de RAM. Como esperado, a máquina está abaixo das especificações para um modelo denso de 27B, mas o relatório de campo fornece números concretos e uma visão realista sobre desempenho e qualidade da saída.

Comando e Configuração

O modelo foi servido com llama-server usando o seguinte comando:

llama-server -m ~/models/unsloth/Qwen3.6-27B-IQ4_XS.gguf --mmproj ~/models/unsloth/Qwen3.6-27B-mmproj-BF16.gguf -c 131072 --batch-size 256 -ngl 99 -np 1 --host 127.0.0.1 --port 8899 -ctk q8_0 -ctv q8_0 --spec-type ngram-mod --spec-ngram-size-n 24 --draft-min 12 --draft-max 48

Escolhas notáveis: processo único (-np 1) para evitar sobrecarregar a GPU, decodificação especulativa com ngram-mod e uma janela de contexto de 131072 tokens.

Detalhamento de Desempenho

Velocidades iniciais: 80 t/s no processamento de prompt, 7,9 t/s na geração de tokens. Com 52.000 tokens de contexto, o desempenho caiu para 4 t/s no processamento de prompt — o que o autor confirma não ser um erro de digitação — e 3,1 t/s na geração de tokens. A pressão de memória nunca entrou na zona vermelha, indicando que o gargalo é largura de banda da memória, não swap.

Decodificação Especulativa Ineficaz

O relator habilitou a decodificação especulativa ngram-mod, mas não viu benefício real. Os logs mostraram:

accept: low acceptance streak (3) – resetting ngram_mod ... draft acceptance rate = 1.00000 ( 2 accepted / 2 generated)

O modelo reinicia constantemente devido a poucas correspondências de n-gramas; a aparente taxa de aceitação de 100% é um artefato de tamanhos de amostra muito pequenos. O autor conclui que modelos densos como este não se repetem o suficiente para a abordagem ngram-mod funcionar bem.

Qualidade do Código

Apesar da lentidão, o código gerado pelo Qwen 3.6 27B foi classificado como excelente. Ele analisou uma base de código significativa sem nenhum prompt adicional além da tarefa inicial e superou o modelo Qwen 35B A3B (MoE) em qualidade. O autor compara a saída ao que se esperaria de um Claude Sonnet auto-hospedado e observa que até o Claude Opus 4.7 ficou impressionado.

Principais Conclusões

Largura de banda da memória domina modelos densos: No Apple Silicon, a geração de tokens caiu pela metade à medida que o contexto crescia. Mesmo sem swap, a limitação de largura de banda prejudicou o desempenho.
Processo único é o caminho: Executar tarefas de agente simultâneas neste hardware não oferece vantagem — apenas fila serial.
Decodificação especulativa depende do modelo: Ngram-mod não ajudou aqui; a baixa repetitividade do modelo impediu correspondências de rascunho.

O autor planeja testar o Qwen 3.6 27B em uma GPU em nuvem com especificações comparáveis à R9700 (preço atual ~$1.400 na Amazon, mais alto no eBay) para ter uma verdadeira noção de sua capacidade em suas próprias tarefas de programação.

📖 Leia a fonte completa: r/LocalLLaMA