10.33 t/s en Qwen 3.5 35B con una laptop de $300: Desglose completo de optimización

Un usuario de Reddit logró una inferencia de Qwen 3.5 35B a 10.33 t/s en una Lenovo Ideapad Slim 3i de $300 (i3-1215U de 12ª Gen, 8GB soldados + 32GB DDR4 de expansión). La configuración utiliza un modelo MoE cuantizado Q4_K_S con solo ~3B parámetros activos y la compilación ik_llama.cpp build 4509.
Hardware y Modelo
- Portátil: Lenovo Ideapad Slim 3i 2023 (~$300)
- CPU: Intel i3-1215U (6 núcleos, 2 núcleos de rendimiento utilizados)
- RAM: 8GB soldados + 32GB DDR4 SO-DIMM (modo Flex)
- SO: Linux Mint
- Modelo:
Qwen3.5-35B-A3B-uncensored-heretic-v2-Native-MTP-Preserved-Q4_K_S.gguf(35B MoE, 3B parámetros activos por token) - Backend: ik_llama.cpp commit 40aae0b6, compilado con GCC 13.3.0
Optimizaciones Aplicadas
- BIOS: Batería → Modo de rendimiento extremo; ventilador en silencioso (apagado)
- Perfil de energía del SO: rendimiento
- Core pinning: hilos fijados a los núcleos de rendimiento 0 y 2 mediante
taskset -c 0,2 - Cuantización: Q4_K_S
- Tamaño de lote: 64 (
-ub 64) - Decodificación especulativa: tipo MTP, borrador máximo 3
- Flash attention, fmoe, rtr — todos habilitados por defecto
- Reinicio limpio antes del benchmark
Comando Utilizado
taskset -c 0,2 ./build/bin/llama-cli \
-m "/home/default/LLM Models/Qwen3.5-35B-A3B-uncensored-heretic-v2-Native-MTP-Preserved-Q4_K_S.gguf" \
-p "User: Please explain the history of france \nAI:" \
-n 1028 \
--spec-type mtp \
--draft-max 3 \
-t 2 \
-ub 64 \
--temp 1.0 \
--top-p 0.95 \
--top-k 20 \
--min-p 0.0 \
--presence-penalty 1.5 \
--repeat-penalty 1.0
Resultados
- Evaluación de prompt: 22.49 t/s
- Inferencia: 10.33 t/s (sobre 1028 tokens)
- Térmicas: ~90°C, sin límite de vatiaje necesario con ik_llama (anteriormente requería límite de 17.5W en llama.cpp)
Por Qué Qwen 3.5 MoE es Rápido
La arquitectura MoE de Qwen 3.5 35B activa solo ~3B parámetros por token, a diferencia de los modelos densos. En comparación, Gemma 4 26b (4B activos) rindió solo ~3 t/s en condiciones similares, lo que sugiere que el enrutamiento MoE y el cómputo disperso en Qwen 3.5 son particularmente amigables con la CPU.
Posibles Mejoras Adicionales
- BIOS personalizado para tiempos de memoria XMP → +10% t/s
- Reemplazo de pasta térmica con compuesto de alta gama
- Actualización de DDR4 a RAM DDR5 para portátiles (combinado con reemplazo de pasta → +20% t/s)
Para quién es: Desarrolladores que ejecutan LLMs locales en hardware económico y quieren exprimir al máximo el rendimiento de los modelos MoE de Qwen usando inferencia solo con CPU.
📖 Lee la fuente completa: r/LocalLLaMA
👀 Ver también

Navegando por los problemas de instalación de OpenClaw
Los usuarios enfrentan desafíos de instalación entre openclaw.ai y openclawd.ai, cada uno proporcionando diferentes comandos de configuración.

Detalles de la API de Herramientas de Claude Code Revelados
Un usuario de Reddit extrajo detalles sobre la API de herramientas de Claude Code, incluyendo operaciones del sistema de archivos, ejecución de bash, búsqueda web y cómo se estructuran las llamadas a herramientas usando bloques similares a XML.

Adam: Una biblioteca de agente de IA multiplataforma integrable en C
Adam es una biblioteca en C que proporciona un bucle de agente completo con llamada a herramientas, memoria, voz y soporte tanto para LLM en la nube como local, diseñada para integrarse en cualquier aplicación.

Claude Code v2.1.76 Actualizaciones del Prompt del Sistema: Refinamientos del Monitor de Seguridad y Nuevo Evento de Hook
Claude Code v2.1.76 incluye actualizaciones a los prompts del sistema con 43 nuevos tokens, que incluyen mejoras al monitor de seguridad para agentes autónomos y la adición de un evento de enlace PostCompact. Los cambios incluyen una detección de datos sensibles aclarada, ejemplos ampliados de deserialización de código y una guía mejorada de destrucción local irreversible.