Qwen 3.5 35B läuft mit 8 GB VRAM und llama.cpp-Konfiguration

Lokales Qwen 3.5 35B-Setup mit begrenztem VRAM
Ein Entwickler auf r/LocalLLaMA beschrieb seine Konfiguration für den lokalen Betrieb des Qwen 3.5 35B-Modells auf Hardware mit 8 GB VRAM. Er wechselte von der Nutzung von Antigravity (mit einem Google AI Pro-Plan) zu lokalen LLMs, nachdem er an Grenzen des Cloud-Dienstes gestoßen war.
Hardware- und Modellspezifikationen
Das Setup verwendet einen Lenovo Legion-Laptop mit einem i9-14900HX-Prozessor (mit im BIOS deaktivierten E-Kernen, 32 GB DDR5-RAM) und einer RTX 4060m-Grafikkarte mit 8 GB VRAM. Das spezifische Modell ist Qwen 3.5 35B A3B Heretic Opus (Q4_K_M GGUF).
Leistung und llama.cpp-Konfiguration
Der Entwickler berichtet, mit diesem Setup etwa 700 Token pro Sekunde bei der Prompt-Verarbeitung und 42 Token pro Sekunde bei der Token-Generierung zu erreichen. Er teilte seine llama.cpp-Kommandozeilenargumente nach Tests mit:
-ngl 99 ^ --n-cpu-moe 40 ^ -c 192000 ^ -t 12 ^ -tb 16 ^ -b 4096 ^ --ubatch-size 2048 ^ --flash-attn on ^ --cache-type-k q8_0 ^ --cache-type-v q8_0 ^ --mlock
Workflow-Integration
Für seinen agentenbasierten Workflow fand er Cline in VSCode als die nächstgelegene Alternative zu Antigravity. Er verwendet kat-coder-pro für den Plan-Modus und qwen3.5 für den Act-Modus in diesem Setup. Der Entwickler sucht Feedback dazu, ob diese lokale Konfiguration besser ist als das Verbleiben bei Google Gemini 3 Flash in Antigravity, und merkt an, dass ihm ein reibungsloser Workflow wichtiger ist als Datenschutzbedenken.
📖 Read the full source: r/LocalLLaMA
👀 Siehe auch

Startup-Buchhalter: Kostenlose Claude-Fähigkeit für die Geschäftsverfolgung kleiner Unternehmen
Startup Bookkeeper ist eine Open-Source-Claude-AI-Fähigkeit, die bootstrapped Gründern hilft, Ausgaben zu verfolgen, indem sie Transaktionen aus einfachen englischen Beschreibungen kategorisiert, Quittungsfotos mit OCR verarbeitet und Dashboards oder Gewinn- und Verlustrechnungen erstellt.

Sovr MCP Proxy fügt eine Sicherheitsschicht hinzu, um zerstörerische LLM-Befehle zu verhindern.
Ein Entwickler baute sovr-mcp-proxy, nachdem ein lokales LLM beinahe rm -rf in seinem Home-Verzeichnis ausgeführt hätte. Das Tool fängt Befehle vor der Ausführung ab und blockt zerstörerische Muster wie rm -rf, DROP TABLE, curl | sh und chmod 777.

4-Fenster iTerm2-Einrichtung für Claude Code CLI trennt KI-Rollen
Ein Entwickler hat ein vierteiliges iTerm2-Terminal-Setup speziell für Claude Code CLI erstellt, um Kontextverschiebung und Selbstbewertungsverzerrung zu adressieren. Jeder Bereich ist auf eine spezifische Rolle mit dedizierten Modellen und Berechtigungen festgelegt.

Cowork Chrome-Erweiterung automatisiert die Entfernung persönlicher Daten von Datenmaklern
Ein Reddit-Bericht zeigt, dass die Cowork Chrome-Erweiterung in Verbindung mit einem Gmail-Konto das Ausfüllen von Formularen, das Verfassen von E-Mails und die Überprüfung von Löschungsanträgen zur Entfernung personenbezogener Daten von großen Datenanbietern in nur wenigen Stunden automatisierte.