10.33 t/s auf Qwen 3.5 35B mit einem 300-Dollar-Laptop: Vollständige Optimierungsaufschlüsselung

Ein Reddit-Nutzer treibt die Inferenz von Qwen 3.5 35B auf 10,33 t/s auf einem 300 $ teuren Lenovo Ideapad Slim 3i (Intel i3-1215U der 12. Generation, 8 GB verlötet + 32 GB DDR4-Erweiterung). Das Setup verwendet ein Q4_K_S quantisiertes MoE-Modell mit nur ~3B aktiven Parametern und dem ik_llama.cpp Build 4509.
Hardware & Modell
- Laptop: Lenovo Ideapad Slim 3i 2023 (~300 $)
- CPU: Intel i3-1215U (6 Kerne, 2 Leistungskerne verwendet)
- RAM: 8 GB verlötet + 32 GB DDR4 SO-DIMM (Flex-Modus)
- OS: Linux Mint
- Modell:
Qwen3.5-35B-A3B-uncensored-heretic-v2-Native-MTP-Preserved-Q4_K_S.gguf(35B MoE, 3B aktive Parameter pro Token) - Backend: ik_llama.cpp Commit 40aae0b6, kompiliert mit GCC 13.3.0
Angewandte Optimierungen
- BIOS: Akku → Extreme Leistung; Lüfter auf leise (aus)
- OS-Energieprofil: Leistung
- Core-Pinning: Threads auf Leistungskerne 0 und 2 über
taskset -c 0,2gepinnt - Quantisierung: Q4_K_S
- Batch-Größe: 64 (
-ub 64) - Spekulative Dekodierung: MTP-Typ, draft max 3
- Flash Attention, fmoe, rtr – alle standardmäßig aktiviert
- Neustart vor dem Benchmark
Verwendeter Befehl
taskset -c 0,2 ./build/bin/llama-cli \
-m "/home/default/LLM Models/Qwen3.5-35B-A3B-uncensored-heretic-v2-Native-MTP-Preserved-Q4_K_S.gguf" \
-p "User: Bitte erklären Sie die Geschichte Frankreichs \nAI:" \
-n 1028 \
--spec-type mtp \
--draft-max 3 \
-t 2 \
-ub 64 \
--temp 1.0 \
--top-p 0.95 \
--top-k 20 \
--min-p 0.0 \
--presence-penalty 1.5 \
--repeat-penalty 1.0
Ergebnisse
- Prompt-Auswertung: 22,49 t/s
- Inferenz: 10,33 t/s (über 1028 Token)
- Thermik: ~90 °C, keine Wattzahl-Begrenzung mit ik_llama nötig (zuvor 17,5 W Limit mit llama.cpp)
Warum Qwen 3.5 MoE schnell ist
Die Qwen 3.5 35B MoE-Architektur aktiviert nur ~3B Parameter pro Token, im Gegensatz zu dichten Modellen. Zum Vergleich: Gemma 4 26b (4B aktiv) erzielte unter ähnlichen Einstellungen nur ~3 t/s – was darauf hindeutet, dass das MoE-Routing und die sparse Berechnung in Qwen 3.5 besonders CPU-freundlich sind.
Mögliche weitere Steigerungen
- Eigenes BIOS für XMP-Speicher-Timings → +10% t/s
- Thermal-Repaste mit hochwertiger Wärmeleitpaste
- Upgrade von DDR4 auf DDR5-Laptop-RAM (kombiniert mit Repaste → +20% t/s)
Für wen geeignet: Entwickler, die lokale LLMs auf Budget-Hardware betreiben und maximale Leistung aus Qwen MoE-Modellen mittels reiner CPU-Inferenz herausholen möchten.
📖 Vollständige Quelle lesen: r/LocalLLaMA
👀 Siehe auch

OpenClaw Smart Router als Open Source für automatische Modellauswahl veröffentlicht
Ein Entwickler hat einen Smart Router für OpenClaw quelloffen gemacht, der Abfragen automatisch nach Komplexität klassifiziert und sie zu optimalen Modellen weiterleitet, wodurch im Vergleich zur ausschließlichen Nutzung von Premium-Modellen wie Claude oder GPT-4o 60–80 % der API-Kosten eingespart werden.

Helix: Open-Source-Framework verwandelt Claude in einen persönlichen KI-Agenten für macOS
Helix ist ein Open-Source-Framework, das Claude über Claude Code im Terminal mit macOS über vier MCP-Server-Plugins verbindet und es Claude ermöglicht, Anwendungen zu steuern, dauerhaften Speicher zu verwalten, geplante Aufgaben auszuführen und mit lokaler Sprachverarbeitung zu arbeiten.

ClaudyBro: Natives macOS-Terminal für Claude-Code-Workflows
ClaudyBro ist eine 3,5 MB große native Swift-Terminal-App, die speziell für Claude Code-Nutzer entwickelt wurde und Funktionen wie Bild-Einfügen, Prozessüberwachung, Bereinigung verwaister Prozesse und intelligentes MCP-Management bietet. Im Leerlauf verbraucht sie 68 MB Arbeitsspeicher und 82 MB mit laufendem Claude.

MCP-Server: Vergleich von lokalen und Cloud-LLMs mit Debattierfunktion
Der MCP-Server ermöglicht Entwicklern, lokale Modelle über Ollama neben verschiedenen Cloud-LLMs abzufragen, und bietet Funktionen wie einen Vergleich nebeneinander und eine strukturierte Debattenfunktion.