10.33 t/s no Qwen 3.5 35B com um Laptop de $300: Análise Completa de Otimização

✍️ OpenClawRadar📅 Publicado: June 14, 2026🔗 Source
10.33 t/s no Qwen 3.5 35B com um Laptop de $300: Análise Completa de Otimização
Ad

Um usuário do Reddit acelerou a inferência do Qwen 3.5 35B para 10,33 t/s em um Lenovo Ideapad Slim 3i de $300 (12ª Geração i3-1215U, 8GB soldados + 32GB DDR4 de expansão). A configuração usa um modelo MoE quantizado Q4_K_S com apenas ~3B de parâmetros ativos e o ik_llama.cpp build 4509.

Hardware & Modelo

  • Notebook: Lenovo Ideapad Slim 3i 2023 (~$300)
  • CPU: Intel i3-1215U (6 núcleos, 2 núcleos de desempenho usados)
  • RAM: 8GB soldados + 32GB DDR4 SO-DIMM (modo Flex)
  • SO: Linux Mint
  • Modelo: Qwen3.5-35B-A3B-uncensored-heretic-v2-Native-MTP-Preserved-Q4_K_S.gguf (35B MoE, 3B parâmetros ativos por token)
  • Backend: ik_llama.cpp commit 40aae0b6, compilado com GCC 13.3.0

Otimizações Aplicadas

  • BIOS: Bateria → Modo de desempenho extremo; ventoinha configurada para silencioso (desligada)
  • Perfil de energia do SO: desempenho
  • Core pinning: threads fixadas nos núcleos de desempenho 0 e 2 via taskset -c 0,2
  • Quantização: Q4_K_S
  • Tamanho do lote: 64 (-ub 64)
  • Decodificação especulativa: tipo MTP, draft máx. 3
  • Flash attention, fmoe, rtr — todos ativados por padrão
  • Reinicialização recente antes do benchmark
Ad

Comando Utilizado

taskset -c 0,2 ./build/bin/llama-cli \
  -m "/home/default/LLM Models/Qwen3.5-35B-A3B-uncensored-heretic-v2-Native-MTP-Preserved-Q4_K_S.gguf" \
  -p "User: Please explain the history of france \nAI:" \
  -n 1028 \
  --spec-type mtp \
  --draft-max 3 \
  -t 2 \
  -ub 64 \
  --temp 1.0 \
  --top-p 0.95 \
  --top-k 20 \
  --min-p 0.0 \
  --presence-penalty 1.5 \
  --repeat-penalty 1.0

Resultados

  • Avaliação do prompt: 22,49 t/s
  • Inferência: 10,33 t/s (em 1028 tokens)
  • Térmicas: ~90°C, sem necessidade de limite de potência com ik_llama (anteriormente exigia limite de 17,5W no llama.cpp)

Por que o Qwen 3.5 MoE é Rápido

A arquitetura MoE do Qwen 3.5 35B ativa apenas ~3B de parâmetros por token, ao contrário de modelos densos. Para comparação, o Gemma 4 26b (4B ativos) rendeu apenas ~3 t/s em configurações semelhantes — sugerindo que o roteamento MoE e o cálculo esparso no Qwen 3.5 são particularmente amigáveis à CPU.

Possíveis Ganhos Adicionais

  • BIOS personalizada para timings de memória XMP → +10% t/s
  • Reaplicação de pasta térmica de alto desempenho
  • Upgrade de RAM DDR4 para DDR5 no notebook (combinado com reaplicação de pasta → +20% t/s)

Para quem é: Desenvolvedores rodando LLMs locais em hardware de baixo custo que desejam extrair o máximo desempenho de modelos MoE Qwen usando apenas inferência em CPU.

📖 Leia a fonte completa: r/LocalLLaMA

Ad

👀 See Also

DoomVLM: Ferramenta de Código Aberto para Testar Modelos de Linguagem Visual em Partidas de Morte do Doom
Tools

DoomVLM: Ferramenta de Código Aberto para Testar Modelos de Linguagem Visual em Partidas de Morte do Doom

O DoomVLM agora é de código aberto como um único notebook Jupyter que permite testar modelos de linguagem visual jogando Doom via APIs compatíveis com OpenAI. A ferramenta suporta modos deathmatch onde até 4 modelos podem competir, com opções completas de configuração para prompts do sistema, descrições de ferramentas e parâmetros de amostragem.

OpenClawRadar
ThumbGate Implementa o Padrão de Controle de Agente de Linguagem Natural da Tsinghua para Segurança de IA
Tools

ThumbGate Implementa o Padrão de Controle de Agente de Linguagem Natural da Tsinghua para Segurança de IA

A ferramenta de código aberto ThumbGate implementa o padrão Natural-Language Agent Harness do artigo NLAH da Tsinghua, mapeando quatro componentes: contratos para regras de prevenção a partir de feedback negativo, portas de verificação para ganchos PreToolUse, estado durável para banco de dados de lições SQLite+FTS5 e adaptadores para adaptadores de servidor MCP para múltiplos agentes de codificação de IA.

OpenClawRadar
PromoClock: Rastreador de Fuso Horário para os Horários Fora de Pico 2x do Claude Desenvolvido com Claude 4.6
Tools

PromoClock: Rastreador de Fuso Horário para os Horários Fora de Pico 2x do Claude Desenvolvido com Claude 4.6

Um desenvolvedor criou o PromoClock.co, uma ferramenta gratuita que converte automaticamente os horários promocionais de 2x fora do pico do Claude "5-11am PT / 12-6pm GMT" para o horário local, usando o Claude 4.6 para lidar com a lógica de fuso horário, configuração do Next.js 15 e design da interface.

OpenClawRadar
Spectral: Capture o Tráfego de Aplicativos para Gerar Servidores MCP para Agentes OpenClaw
Tools

Spectral: Capture o Tráfego de Aplicativos para Gerar Servidores MCP para Agentes OpenClaw

Spectral é uma ferramenta de código aberto que captura o tráfego de qualquer aplicativo, analisa-o com um LLM e gera um servidor MCP funcional, permitindo que os agentes do OpenClaw chamem a API real do aplicativo diretamente, em vez de depender da automação de navegador.

OpenClawRadar