Qwen 3.5 35B mit 10,33 t/s auf einem 300-$-Laptop

Ein Reddit-Nutzer treibt die Inferenz von Qwen 3.5 35B auf 10,33 t/s auf einem 300 $ teuren Lenovo Ideapad Slim 3i (Intel i3-1215U der 12. Generation, 8 GB verlötet + 32 GB DDR4-Erweiterung). Das Setup verwendet ein Q4_K_S quantisiertes MoE-Modell mit nur ~3B aktiven Parametern und dem ik_llama.cpp Build 4509.

Hardware & Modell

Laptop: Lenovo Ideapad Slim 3i 2023 (~300 $)
CPU: Intel i3-1215U (6 Kerne, 2 Leistungskerne verwendet)
RAM: 8 GB verlötet + 32 GB DDR4 SO-DIMM (Flex-Modus)
OS: Linux Mint
Modell: Qwen3.5-35B-A3B-uncensored-heretic-v2-Native-MTP-Preserved-Q4_K_S.gguf (35B MoE, 3B aktive Parameter pro Token)
Backend: ik_llama.cpp Commit 40aae0b6, kompiliert mit GCC 13.3.0

Angewandte Optimierungen

BIOS: Akku → Extreme Leistung; Lüfter auf leise (aus)
OS-Energieprofil: Leistung
Core-Pinning: Threads auf Leistungskerne 0 und 2 über taskset -c 0,2 gepinnt
Quantisierung: Q4_K_S
Batch-Größe: 64 (-ub 64)
Spekulative Dekodierung: MTP-Typ, draft max 3
Flash Attention, fmoe, rtr – alle standardmäßig aktiviert
Neustart vor dem Benchmark

Verwendeter Befehl

taskset -c 0,2 ./build/bin/llama-cli \
  -m "/home/default/LLM Models/Qwen3.5-35B-A3B-uncensored-heretic-v2-Native-MTP-Preserved-Q4_K_S.gguf" \
  -p "User: Bitte erklären Sie die Geschichte Frankreichs \nAI:" \
  -n 1028 \
  --spec-type mtp \
  --draft-max 3 \
  -t 2 \
  -ub 64 \
  --temp 1.0 \
  --top-p 0.95 \
  --top-k 20 \
  --min-p 0.0 \
  --presence-penalty 1.5 \
  --repeat-penalty 1.0

Ergebnisse

Prompt-Auswertung: 22,49 t/s
Inferenz: 10,33 t/s (über 1028 Token)
Thermik: ~90 °C, keine Wattzahl-Begrenzung mit ik_llama nötig (zuvor 17,5 W Limit mit llama.cpp)

Warum Qwen 3.5 MoE schnell ist

Die Qwen 3.5 35B MoE-Architektur aktiviert nur ~3B Parameter pro Token, im Gegensatz zu dichten Modellen. Zum Vergleich: Gemma 4 26b (4B aktiv) erzielte unter ähnlichen Einstellungen nur ~3 t/s – was darauf hindeutet, dass das MoE-Routing und die sparse Berechnung in Qwen 3.5 besonders CPU-freundlich sind.

Mögliche weitere Steigerungen

Eigenes BIOS für XMP-Speicher-Timings → +10% t/s
Thermal-Repaste mit hochwertiger Wärmeleitpaste
Upgrade von DDR4 auf DDR5-Laptop-RAM (kombiniert mit Repaste → +20% t/s)

Für wen geeignet: Entwickler, die lokale LLMs auf Budget-Hardware betreiben und maximale Leistung aus Qwen MoE-Modellen mittels reiner CPU-Inferenz herausholen möchten.

📖 Vollständige Quelle lesen: r/LocalLLaMA