Qwen 3.5 35B a 10,33 t/s em Notebook de $300

Um usuário do Reddit acelerou a inferência do Qwen 3.5 35B para 10,33 t/s em um Lenovo Ideapad Slim 3i de $300 (12ª Geração i3-1215U, 8GB soldados + 32GB DDR4 de expansão). A configuração usa um modelo MoE quantizado Q4_K_S com apenas ~3B de parâmetros ativos e o ik_llama.cpp build 4509.

Hardware & Modelo

Notebook: Lenovo Ideapad Slim 3i 2023 (~$300)
CPU: Intel i3-1215U (6 núcleos, 2 núcleos de desempenho usados)
RAM: 8GB soldados + 32GB DDR4 SO-DIMM (modo Flex)
SO: Linux Mint
Modelo: Qwen3.5-35B-A3B-uncensored-heretic-v2-Native-MTP-Preserved-Q4_K_S.gguf (35B MoE, 3B parâmetros ativos por token)
Backend: ik_llama.cpp commit 40aae0b6, compilado com GCC 13.3.0

Otimizações Aplicadas

BIOS: Bateria → Modo de desempenho extremo; ventoinha configurada para silencioso (desligada)
Perfil de energia do SO: desempenho
Core pinning: threads fixadas nos núcleos de desempenho 0 e 2 via taskset -c 0,2
Quantização: Q4_K_S
Tamanho do lote: 64 (-ub 64)
Decodificação especulativa: tipo MTP, draft máx. 3
Flash attention, fmoe, rtr — todos ativados por padrão
Reinicialização recente antes do benchmark

Comando Utilizado

taskset -c 0,2 ./build/bin/llama-cli \
  -m "/home/default/LLM Models/Qwen3.5-35B-A3B-uncensored-heretic-v2-Native-MTP-Preserved-Q4_K_S.gguf" \
  -p "User: Please explain the history of france \nAI:" \
  -n 1028 \
  --spec-type mtp \
  --draft-max 3 \
  -t 2 \
  -ub 64 \
  --temp 1.0 \
  --top-p 0.95 \
  --top-k 20 \
  --min-p 0.0 \
  --presence-penalty 1.5 \
  --repeat-penalty 1.0

Resultados

Avaliação do prompt: 22,49 t/s
Inferência: 10,33 t/s (em 1028 tokens)
Térmicas: ~90°C, sem necessidade de limite de potência com ik_llama (anteriormente exigia limite de 17,5W no llama.cpp)

Por que o Qwen 3.5 MoE é Rápido

A arquitetura MoE do Qwen 3.5 35B ativa apenas ~3B de parâmetros por token, ao contrário de modelos densos. Para comparação, o Gemma 4 26b (4B ativos) rendeu apenas ~3 t/s em configurações semelhantes — sugerindo que o roteamento MoE e o cálculo esparso no Qwen 3.5 são particularmente amigáveis à CPU.

Possíveis Ganhos Adicionais

BIOS personalizada para timings de memória XMP → +10% t/s
Reaplicação de pasta térmica de alto desempenho
Upgrade de RAM DDR4 para DDR5 no notebook (combinado com reaplicação de pasta → +20% t/s)

Para quem é: Desenvolvedores rodando LLMs locais em hardware de baixo custo que desejam extrair o máximo desempenho de modelos MoE Qwen usando apenas inferência em CPU.

📖 Leia a fonte completa: r/LocalLLaMA

10.33 t/s no Qwen 3.5 35B com um Laptop de $300: Análise Completa de Otimização

Hardware & Modelo

Otimizações Aplicadas

Comando Utilizado

Resultados

Por que o Qwen 3.5 MoE é Rápido

Possíveis Ganhos Adicionais

👀 See Also

DoomVLM: Ferramenta de Código Aberto para Testar Modelos de Linguagem Visual em Partidas de Morte do Doom

ThumbGate Implementa o Padrão de Controle de Agente de Linguagem Natural da Tsinghua para Segurança de IA

PromoClock: Rastreador de Fuso Horário para os Horários Fora de Pico 2x do Claude Desenvolvido com Claude 4.6

Spectral: Capture o Tráfego de Aplicativos para Gerar Servidores MCP para Agentes OpenClaw