Qwen3.6-35B-A3B mit ~190K Kontext auf 8 GB VRAM + 32 GB RAM ausführen – Einrichtung und Benchmarks

Ein Reddit-Nutzer hat eine detaillierte Anleitung zum Ausführen von Qwen3.6-35B-A3B GGUF-Modellen mit ~190k Kontext auf einem Laptop mit 8 GB VRAM (RTX 4060) und 32 GB DDR5-RAM veröffentlicht. Er berichtet von 37-43 tok/s direkt nach der Installation, mit Optimierungen auf ~51 tok/s.
Hardware & Modelle
- GPU: RTX 4060 8 GB VRAM
- RAM: 32 GB DDR5 5600 MHz
- Betriebssystem: Linux (Leistung besser als unter Windows)
- Getestete Modelle (Q5-Quantisierung):
mudler/Qwen3.6-35B-A3B-APEX-GGUF– ~40 tok/s bis 37 tok/shesamation/Qwen3.6-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled-GGUF– ~43 tok/s bis 37 tok/s
Wichtige Konfiguration
Mit einem Fork von llama.cpp mit TurboQuant-Unterstützung (turboquant_plus) führt der Nutzer llama-server mit den folgenden Flags aus:
--model "<Pfad>" \
--host 0.0.0.0 \
--port 8085 \
--ctx-size 192640 \
--n-gpu-layers 430 \
--n-cpu-moe 35 \
--cache-type-k "turbo4" \
--cache-type-v "turbo4" \
--flash-attn on \
--batch-size 2048 \
--parallel 1 \
--no-mmap \
--mlock \
--ubatch-size 512 \
--threads 6 \
--cont-batching \
--timeout 300 \
--temp 0.2 \
--top-p 0.95 \
--min-p 0.05 \
--top-k 20 \
--metrics \
--chat-template-kwargs '{"preserve_thinking": true}'
Um Geschwindigkeiten von ~51 tok/s zu erreichen, passen Sie drei Flags an: --ctx-size 192640, --n-gpu-layers 430, --n-cpu-moe 35 (leicht anpassen je nach Stabilität/Speicher).
Einschränkungen
- Q4-Quantisierung ist für das Denken mit langem Kontext merklich schlechter als Q5.
--no-mmap+--mlockreduziert Ruckler und Verlangsamungen.- TurboQuant KV-Cache ist bei großen Kontextgrößen entscheidend.
- Hohe RAM-Bandbreite (DDR5) ist für diese Geschwindigkeiten wichtig.
- Linux übertrifft Windows für diese Arbeitslast deutlich.
Für wen das gedacht ist
Entwickler, die lokale LLMs mit sehr langen Kontexten (170k+ Token) auf Consumer-Hardware ausführen, insbesondere solche mit 8-12 GB VRAM und schnellem System-RAM.
📖 Vollständige Quelle lesen: r/LocalLLaMA
👀 Siehe auch

Trellis 2 läuft erfolgreich auf ROCm 7.11 mit AMD RX 9070 XT
Ein Entwickler hat Trellis 2 auf Linux Mint 22.3 mit einer AMD RX 9070 XT unter ROCm 7.11 zum Laufen gebracht und dabei zwei Hauptprobleme behoben: Die Instabilität von ROCm bei hohen N-Tensoren und eine fehlerhafte hipMemcpy2D-Funktion in CuMesh.

Aufbau einer serverlosen KI-Agenten-Plattform auf AWS für 0,01 $/Monat mit Claude Code
Ein Entwickler hat eine komplette AWS-Serverless-Plattform für KI-Agenten für etwa 0,01 $/Monat mit Claude Code über 29 Stunden aufgebaut und teure Komponenten wie NAT Gateway (32 $/Monat) und ALB (18 $/Monat) eliminiert. Das Projekt umfasst 233 Unit-Tests, 35 E2E-Tests und wird mit einem einzigen cdk deploy-Befehl bereitgestellt.

Drei wesentliche OpenClaw-Fähigkeiten für einen stabilen Aufbau: Speicher, Sicherheit und Erkundung
Ein Reddit-Beitrag empfiehlt, zuerst drei spezifische Arten von OpenClaw-Fähigkeiten zu installieren: eine Speicherkorrekturfähigkeit, um Kontextverlust zu verhindern, eine lokale Sicherheitsprüfungsfähigkeit, um auf bösartigen Code zu überprüfen, und einen kuratierten Entdeckungshub, um gepflegte Tools zu finden.

Behebung der Fehler 'Navigate Unsupported' und Browser-Plugin bei selbst gehostetem OpenClaw auf Docker
Schritt-für-Schritt-Lösung für EACCES-Berechtigungsfehler, fehlendes Playwright und Chromium-Binärdateien beim Selbsthosten von OpenClaw mit Docker auf einer VPS wie Hostinger.