10.33 t/s auf Qwen 3.5 35B mit einem 300-Dollar-Laptop: Vollständige Optimierungsaufschlüsselung

✍️ OpenClawRadar📅 Veröffentlicht: 14. Juni 2026🔗 Source
10.33 t/s auf Qwen 3.5 35B mit einem 300-Dollar-Laptop: Vollständige Optimierungsaufschlüsselung
Ad

Ein Reddit-Nutzer treibt die Inferenz von Qwen 3.5 35B auf 10,33 t/s auf einem 300 $ teuren Lenovo Ideapad Slim 3i (Intel i3-1215U der 12. Generation, 8 GB verlötet + 32 GB DDR4-Erweiterung). Das Setup verwendet ein Q4_K_S quantisiertes MoE-Modell mit nur ~3B aktiven Parametern und dem ik_llama.cpp Build 4509.

Hardware & Modell

  • Laptop: Lenovo Ideapad Slim 3i 2023 (~300 $)
  • CPU: Intel i3-1215U (6 Kerne, 2 Leistungskerne verwendet)
  • RAM: 8 GB verlötet + 32 GB DDR4 SO-DIMM (Flex-Modus)
  • OS: Linux Mint
  • Modell: Qwen3.5-35B-A3B-uncensored-heretic-v2-Native-MTP-Preserved-Q4_K_S.gguf (35B MoE, 3B aktive Parameter pro Token)
  • Backend: ik_llama.cpp Commit 40aae0b6, kompiliert mit GCC 13.3.0

Angewandte Optimierungen

  • BIOS: Akku → Extreme Leistung; Lüfter auf leise (aus)
  • OS-Energieprofil: Leistung
  • Core-Pinning: Threads auf Leistungskerne 0 und 2 über taskset -c 0,2 gepinnt
  • Quantisierung: Q4_K_S
  • Batch-Größe: 64 (-ub 64)
  • Spekulative Dekodierung: MTP-Typ, draft max 3
  • Flash Attention, fmoe, rtr – alle standardmäßig aktiviert
  • Neustart vor dem Benchmark
Ad

Verwendeter Befehl

taskset -c 0,2 ./build/bin/llama-cli \
  -m "/home/default/LLM Models/Qwen3.5-35B-A3B-uncensored-heretic-v2-Native-MTP-Preserved-Q4_K_S.gguf" \
  -p "User: Bitte erklären Sie die Geschichte Frankreichs \nAI:" \
  -n 1028 \
  --spec-type mtp \
  --draft-max 3 \
  -t 2 \
  -ub 64 \
  --temp 1.0 \
  --top-p 0.95 \
  --top-k 20 \
  --min-p 0.0 \
  --presence-penalty 1.5 \
  --repeat-penalty 1.0

Ergebnisse

  • Prompt-Auswertung: 22,49 t/s
  • Inferenz: 10,33 t/s (über 1028 Token)
  • Thermik: ~90 °C, keine Wattzahl-Begrenzung mit ik_llama nötig (zuvor 17,5 W Limit mit llama.cpp)

Warum Qwen 3.5 MoE schnell ist

Die Qwen 3.5 35B MoE-Architektur aktiviert nur ~3B Parameter pro Token, im Gegensatz zu dichten Modellen. Zum Vergleich: Gemma 4 26b (4B aktiv) erzielte unter ähnlichen Einstellungen nur ~3 t/s – was darauf hindeutet, dass das MoE-Routing und die sparse Berechnung in Qwen 3.5 besonders CPU-freundlich sind.

Mögliche weitere Steigerungen

  • Eigenes BIOS für XMP-Speicher-Timings → +10% t/s
  • Thermal-Repaste mit hochwertiger Wärmeleitpaste
  • Upgrade von DDR4 auf DDR5-Laptop-RAM (kombiniert mit Repaste → +20% t/s)

Für wen geeignet: Entwickler, die lokale LLMs auf Budget-Hardware betreiben und maximale Leistung aus Qwen MoE-Modellen mittels reiner CPU-Inferenz herausholen möchten.

📖 Vollständige Quelle lesen: r/LocalLLaMA

Ad

👀 Siehe auch

OpenClaw Smart Router als Open Source für automatische Modellauswahl veröffentlicht
Werkzeuge

OpenClaw Smart Router als Open Source für automatische Modellauswahl veröffentlicht

Ein Entwickler hat einen Smart Router für OpenClaw quelloffen gemacht, der Abfragen automatisch nach Komplexität klassifiziert und sie zu optimalen Modellen weiterleitet, wodurch im Vergleich zur ausschließlichen Nutzung von Premium-Modellen wie Claude oder GPT-4o 60–80 % der API-Kosten eingespart werden.

OpenClawRadar
Helix: Open-Source-Framework verwandelt Claude in einen persönlichen KI-Agenten für macOS
Werkzeuge

Helix: Open-Source-Framework verwandelt Claude in einen persönlichen KI-Agenten für macOS

Helix ist ein Open-Source-Framework, das Claude über Claude Code im Terminal mit macOS über vier MCP-Server-Plugins verbindet und es Claude ermöglicht, Anwendungen zu steuern, dauerhaften Speicher zu verwalten, geplante Aufgaben auszuführen und mit lokaler Sprachverarbeitung zu arbeiten.

OpenClawRadar
ClaudyBro: Natives macOS-Terminal für Claude-Code-Workflows
Werkzeuge

ClaudyBro: Natives macOS-Terminal für Claude-Code-Workflows

ClaudyBro ist eine 3,5 MB große native Swift-Terminal-App, die speziell für Claude Code-Nutzer entwickelt wurde und Funktionen wie Bild-Einfügen, Prozessüberwachung, Bereinigung verwaister Prozesse und intelligentes MCP-Management bietet. Im Leerlauf verbraucht sie 68 MB Arbeitsspeicher und 82 MB mit laufendem Claude.

OpenClawRadar
MCP-Server: Vergleich von lokalen und Cloud-LLMs mit Debattierfunktion
Werkzeuge

MCP-Server: Vergleich von lokalen und Cloud-LLMs mit Debattierfunktion

Der MCP-Server ermöglicht Entwicklern, lokale Modelle über Ollama neben verschiedenen Cloud-LLMs abzufragen, und bietet Funktionen wie einen Vergleich nebeneinander und eine strukturierte Debattenfunktion.

OpenClawRadar