Qwen 3.5 35B auf 8 GB VRAM: So erreichen Sie 700 t/s

Lokales Qwen 3.5 35B-Setup mit begrenztem VRAM

Ein Entwickler auf r/LocalLLaMA beschrieb seine Konfiguration für den lokalen Betrieb des Qwen 3.5 35B-Modells auf Hardware mit 8 GB VRAM. Er wechselte von der Nutzung von Antigravity (mit einem Google AI Pro-Plan) zu lokalen LLMs, nachdem er an Grenzen des Cloud-Dienstes gestoßen war.

Hardware- und Modellspezifikationen

Das Setup verwendet einen Lenovo Legion-Laptop mit einem i9-14900HX-Prozessor (mit im BIOS deaktivierten E-Kernen, 32 GB DDR5-RAM) und einer RTX 4060m-Grafikkarte mit 8 GB VRAM. Das spezifische Modell ist Qwen 3.5 35B A3B Heretic Opus (Q4_K_M GGUF).

Leistung und llama.cpp-Konfiguration

Der Entwickler berichtet, mit diesem Setup etwa 700 Token pro Sekunde bei der Prompt-Verarbeitung und 42 Token pro Sekunde bei der Token-Generierung zu erreichen. Er teilte seine llama.cpp-Kommandozeilenargumente nach Tests mit:

-ngl 99 ^
--n-cpu-moe 40 ^
-c 192000 ^
-t 12 ^
-tb 16 ^
-b 4096 ^
--ubatch-size 2048 ^
--flash-attn on ^
--cache-type-k q8_0 ^
--cache-type-v q8_0 ^
--mlock

Workflow-Integration

Für seinen agentenbasierten Workflow fand er Cline in VSCode als die nächstgelegene Alternative zu Antigravity. Er verwendet kat-coder-pro für den Plan-Modus und qwen3.5 für den Act-Modus in diesem Setup. Der Entwickler sucht Feedback dazu, ob diese lokale Konfiguration besser ist als das Verbleiben bei Google Gemini 3 Flash in Antigravity, und merkt an, dass ihm ein reibungsloser Workflow wichtiger ist als Datenschutzbedenken.

📖 Read the full source: r/LocalLLaMA

Qwen 3.5 35B läuft mit 8 GB VRAM und llama.cpp-Konfiguration

Lokales Qwen 3.5 35B-Setup mit begrenztem VRAM

Hardware- und Modellspezifikationen

Leistung und llama.cpp-Konfiguration

Workflow-Integration

👀 Siehe auch

Geschmacksknospengedächtnis: Reversible Agentenspeicherung mittels hyperdimensionaler Rechenvektoren

molequla: Kontinuierlich lernender KI-Organismus, von Grund auf mit ClaudeCode aufgebaut

Kstack: Skill-Pack für Claude Code zur Überwachung und Fehlerbehebung von Kubernetes

Claude Code v2.1.59 fügt Auto-Memory, den Copy-Befehl und Shell-Verbesserungen hinzu.