10.33 t/s en Qwen 3.5 35B con una laptop de $300: Desglose completo de optimización

✍️ OpenClawRadar📅 Publicado: 14 de junio de 2026🔗 Source
10.33 t/s en Qwen 3.5 35B con una laptop de $300: Desglose completo de optimización
Ad

Un usuario de Reddit logró una inferencia de Qwen 3.5 35B a 10.33 t/s en una Lenovo Ideapad Slim 3i de $300 (i3-1215U de 12ª Gen, 8GB soldados + 32GB DDR4 de expansión). La configuración utiliza un modelo MoE cuantizado Q4_K_S con solo ~3B parámetros activos y la compilación ik_llama.cpp build 4509.

Hardware y Modelo

  • Portátil: Lenovo Ideapad Slim 3i 2023 (~$300)
  • CPU: Intel i3-1215U (6 núcleos, 2 núcleos de rendimiento utilizados)
  • RAM: 8GB soldados + 32GB DDR4 SO-DIMM (modo Flex)
  • SO: Linux Mint
  • Modelo: Qwen3.5-35B-A3B-uncensored-heretic-v2-Native-MTP-Preserved-Q4_K_S.gguf (35B MoE, 3B parámetros activos por token)
  • Backend: ik_llama.cpp commit 40aae0b6, compilado con GCC 13.3.0

Optimizaciones Aplicadas

  • BIOS: Batería → Modo de rendimiento extremo; ventilador en silencioso (apagado)
  • Perfil de energía del SO: rendimiento
  • Core pinning: hilos fijados a los núcleos de rendimiento 0 y 2 mediante taskset -c 0,2
  • Cuantización: Q4_K_S
  • Tamaño de lote: 64 (-ub 64)
  • Decodificación especulativa: tipo MTP, borrador máximo 3
  • Flash attention, fmoe, rtr — todos habilitados por defecto
  • Reinicio limpio antes del benchmark
Ad

Comando Utilizado

taskset -c 0,2 ./build/bin/llama-cli \
  -m "/home/default/LLM Models/Qwen3.5-35B-A3B-uncensored-heretic-v2-Native-MTP-Preserved-Q4_K_S.gguf" \
  -p "User: Please explain the history of france \nAI:" \
  -n 1028 \
  --spec-type mtp \
  --draft-max 3 \
  -t 2 \
  -ub 64 \
  --temp 1.0 \
  --top-p 0.95 \
  --top-k 20 \
  --min-p 0.0 \
  --presence-penalty 1.5 \
  --repeat-penalty 1.0

Resultados

  • Evaluación de prompt: 22.49 t/s
  • Inferencia: 10.33 t/s (sobre 1028 tokens)
  • Térmicas: ~90°C, sin límite de vatiaje necesario con ik_llama (anteriormente requería límite de 17.5W en llama.cpp)

Por Qué Qwen 3.5 MoE es Rápido

La arquitectura MoE de Qwen 3.5 35B activa solo ~3B parámetros por token, a diferencia de los modelos densos. En comparación, Gemma 4 26b (4B activos) rindió solo ~3 t/s en condiciones similares, lo que sugiere que el enrutamiento MoE y el cómputo disperso en Qwen 3.5 son particularmente amigables con la CPU.

Posibles Mejoras Adicionales

  • BIOS personalizado para tiempos de memoria XMP → +10% t/s
  • Reemplazo de pasta térmica con compuesto de alta gama
  • Actualización de DDR4 a RAM DDR5 para portátiles (combinado con reemplazo de pasta → +20% t/s)

Para quién es: Desarrolladores que ejecutan LLMs locales en hardware económico y quieren exprimir al máximo el rendimiento de los modelos MoE de Qwen usando inferencia solo con CPU.

📖 Lee la fuente completa: r/LocalLLaMA

Ad

👀 Ver también