10.33 t/s no Qwen 3.5 35B com um Laptop de $300: Análise Completa de Otimização

Um usuário do Reddit acelerou a inferência do Qwen 3.5 35B para 10,33 t/s em um Lenovo Ideapad Slim 3i de $300 (12ª Geração i3-1215U, 8GB soldados + 32GB DDR4 de expansão). A configuração usa um modelo MoE quantizado Q4_K_S com apenas ~3B de parâmetros ativos e o ik_llama.cpp build 4509.
Hardware & Modelo
- Notebook: Lenovo Ideapad Slim 3i 2023 (~$300)
- CPU: Intel i3-1215U (6 núcleos, 2 núcleos de desempenho usados)
- RAM: 8GB soldados + 32GB DDR4 SO-DIMM (modo Flex)
- SO: Linux Mint
- Modelo:
Qwen3.5-35B-A3B-uncensored-heretic-v2-Native-MTP-Preserved-Q4_K_S.gguf(35B MoE, 3B parâmetros ativos por token) - Backend: ik_llama.cpp commit 40aae0b6, compilado com GCC 13.3.0
Otimizações Aplicadas
- BIOS: Bateria → Modo de desempenho extremo; ventoinha configurada para silencioso (desligada)
- Perfil de energia do SO: desempenho
- Core pinning: threads fixadas nos núcleos de desempenho 0 e 2 via
taskset -c 0,2 - Quantização: Q4_K_S
- Tamanho do lote: 64 (
-ub 64) - Decodificação especulativa: tipo MTP, draft máx. 3
- Flash attention, fmoe, rtr — todos ativados por padrão
- Reinicialização recente antes do benchmark
Comando Utilizado
taskset -c 0,2 ./build/bin/llama-cli \
-m "/home/default/LLM Models/Qwen3.5-35B-A3B-uncensored-heretic-v2-Native-MTP-Preserved-Q4_K_S.gguf" \
-p "User: Please explain the history of france \nAI:" \
-n 1028 \
--spec-type mtp \
--draft-max 3 \
-t 2 \
-ub 64 \
--temp 1.0 \
--top-p 0.95 \
--top-k 20 \
--min-p 0.0 \
--presence-penalty 1.5 \
--repeat-penalty 1.0
Resultados
- Avaliação do prompt: 22,49 t/s
- Inferência: 10,33 t/s (em 1028 tokens)
- Térmicas: ~90°C, sem necessidade de limite de potência com ik_llama (anteriormente exigia limite de 17,5W no llama.cpp)
Por que o Qwen 3.5 MoE é Rápido
A arquitetura MoE do Qwen 3.5 35B ativa apenas ~3B de parâmetros por token, ao contrário de modelos densos. Para comparação, o Gemma 4 26b (4B ativos) rendeu apenas ~3 t/s em configurações semelhantes — sugerindo que o roteamento MoE e o cálculo esparso no Qwen 3.5 são particularmente amigáveis à CPU.
Possíveis Ganhos Adicionais
- BIOS personalizada para timings de memória XMP → +10% t/s
- Reaplicação de pasta térmica de alto desempenho
- Upgrade de RAM DDR4 para DDR5 no notebook (combinado com reaplicação de pasta → +20% t/s)
Para quem é: Desenvolvedores rodando LLMs locais em hardware de baixo custo que desejam extrair o máximo desempenho de modelos MoE Qwen usando apenas inferência em CPU.
📖 Leia a fonte completa: r/LocalLLaMA
👀 See Also

DoomVLM: Ferramenta de Código Aberto para Testar Modelos de Linguagem Visual em Partidas de Morte do Doom
O DoomVLM agora é de código aberto como um único notebook Jupyter que permite testar modelos de linguagem visual jogando Doom via APIs compatíveis com OpenAI. A ferramenta suporta modos deathmatch onde até 4 modelos podem competir, com opções completas de configuração para prompts do sistema, descrições de ferramentas e parâmetros de amostragem.

ThumbGate Implementa o Padrão de Controle de Agente de Linguagem Natural da Tsinghua para Segurança de IA
A ferramenta de código aberto ThumbGate implementa o padrão Natural-Language Agent Harness do artigo NLAH da Tsinghua, mapeando quatro componentes: contratos para regras de prevenção a partir de feedback negativo, portas de verificação para ganchos PreToolUse, estado durável para banco de dados de lições SQLite+FTS5 e adaptadores para adaptadores de servidor MCP para múltiplos agentes de codificação de IA.

PromoClock: Rastreador de Fuso Horário para os Horários Fora de Pico 2x do Claude Desenvolvido com Claude 4.6
Um desenvolvedor criou o PromoClock.co, uma ferramenta gratuita que converte automaticamente os horários promocionais de 2x fora do pico do Claude "5-11am PT / 12-6pm GMT" para o horário local, usando o Claude 4.6 para lidar com a lógica de fuso horário, configuração do Next.js 15 e design da interface.

Spectral: Capture o Tráfego de Aplicativos para Gerar Servidores MCP para Agentes OpenClaw
Spectral é uma ferramenta de código aberto que captura o tráfego de qualquer aplicativo, analisa-o com um LLM e gera um servidor MCP funcional, permitindo que os agentes do OpenClaw chamem a API real do aplicativo diretamente, em vez de depender da automação de navegador.