Qwen3.6 27B und 35B auf 6GB VRAM mit ik_llama ausführen: Praktische Konfigurationen und Benchmarks

✍️ OpenClawRadar📅 Veröffentlicht: 17. Mai 2026🔗 Source
Qwen3.6 27B und 35B auf 6GB VRAM mit ik_llama ausführen: Praktische Konfigurationen und Benchmarks
Ad

Ein Reddit-Nutzer berichtet, dass er die Modelle Qwen3.6 27B und 35B A3B erfolgreich auf einem alten Gaming-Laptop mit RTX 2060 Mobile (6 GB VRAM) und 32 GB RAM mit ik_llama und llama.cpp ausgeführt hat. Zu den wichtigsten Optimierungen gehören doppeltes spekulatives Decoding mit MTP und ngram, --fit und --mtp-requantize-output-tensor sowie das Neuverpacken des Ausgabetensors. Nachfolgend die genauen Konfigurationen und beobachteten Geschwindigkeiten.

Konfiguration für Qwen3.6 27B (Q3_K_XL)

export GGML_CUDA_GRAPHS=1
./llama-server \
  -m /mnt/second-ssd/lib/llama.cpp/models/Qwen3.6-27B-MTP-UD-Q3_K_XL.gguf \
  -c 16000 \
  -b 512 -ub 512 \
  --fit --fit-margin 3076 \
  -fa on \
  -np 1 \
  -ctk q4_0 -ctv q4_0 \
  --mtp-requantize-output-tensor q4_0 \
  -khad -vhad -rtr \
  --threads 6 --threads-batch 8 \
  --slot-save-path ./slots \
  --prompt-cache "prompt.cache" \
  --port 8888 --host 0.0.0.0 \
  --spec-stage ngram-mod:n_max=64,n_min=2,spec-ngram-size-n=16 \
  --spec-stage mtp:n_max=1,draft-p-min=0.0 \
  --temp 0.6 --top-p 0.95 --top-k 20 --min-p 0.0 \
  --jinja \
  --chat-template-kwargs '{"preserve_thinking": true}' \
  --reasoning on
Ad

Konfiguration für Qwen3.6 35B A3B (IQ4_XS, Claude Opus Distill)

export GGML_CUDA_GRAPHS=1
./llama-server \
  -m /mnt/second-ssd/lib/llama.cpp/models/lordx64-Claude-4.7-Opus-Reasoning-Distilled-Qwen3.6-35B-A3B-MTP-IQ4_XS.gguf \
  -c 80000 \
  -b 1024 -ub 1024 \
  --fit --fit-margin 2048 \
  -fa on \
  -np 1 \
  -ctk q8_0 -ctv q4_0 \
  --mtp-requantize-output-tensor q4_0 \
  -khad -vhad -rtr \
  --threads 6 --threads-batch 8 \
  --slot-save-path ./slots \
  --prompt-cache "prompt.cache" \
  --mlock --no-mmap \
  --port 8888 --host 0.0.0.0 \
  --spec-stage ngram-mod:n_max=64,n_min=2,spec-ngram-size-n=16 \
  --spec-stage mtp:n_max=3,draft-p-min=0.0 \
  --temp 0.6 --top-p 0.95 --top-k 20 --min-p 0.0 \
  --jinja \
  --chat-template-kwargs '{"preserve_thinking": true}' \
  --reasoning on

Leistungszahlen

  • 27B: Prefill ~100 t/s, erstes Token bis zu 4 t/s, ~1 t/s bei 10k Kontext
  • 35B A3B: Prefill ~40 t/s, erstes Token bis zu 15 t/s, konstant ~11 t/s bei 10k Kontext

Der Nutzer merkt an, dass die 27B-Version für Überlegungen zu Dateien mit bis zu 1000 Zeilen nutzbar wurde (dauert Minuten, aber nützlich), und der 35B-Opus-Distill läuft mit einer stabilen Ausgabe von 11 t/s. Er verwendet es zur Generierung von Mermaid-Diagrammen, Bildern, Markdown und PDFs mit Little-Coder- oder agentischen Codierungs-Workflows.

📖 Vollständige Quelle lesen: r/LocalLLaMA

Ad

👀 Siehe auch

Hören Sie auf zu fragen, welches KI-Modell Sie verwenden sollen: Leiten Sie Aufgaben an Haiku-, Sonnet- und Opus-Stufen weiter
Anleitungen

Hören Sie auf zu fragen, welches KI-Modell Sie verwenden sollen: Leiten Sie Aufgaben an Haiku-, Sonnet- und Opus-Stufen weiter

Verwenden Sie mindestens drei Modelle nach Aufgabentyp: Haiku-Stufe zum Lesen/Zusammenfassen, Sonnet-Stufe zum Schreiben von Code und Opus-Stufe nur für dateiübergreifende Refactorings und Debugging. Ein Benutzer leitet 40% an günstige Modelle, 35% an mittlere, 25% an Spitzenmodelle weiter, was etwa 30-40 USD/Monat kostet.

OpenClawRadar
Praktische Einblicke in die OpenClaw-Einrichtung aus Docker/Windows-Erfahrungen
Anleitungen

Praktische Einblicke in die OpenClaw-Einrichtung aus Docker/Windows-Erfahrungen

Ein Entwickler teilt spezifische Erfahrungen aus dem Betrieb von OpenClaw auf Docker mit Windows 11/WSL2, behandelt Persistenzprobleme, Discord-Bot-Konfiguration, Ansätze zur Speicherverwaltung und Workarounds für Browser-Automatisierung.

OpenClawRadar
Praktische Übersicht: 3 wesentliche Clawhub-Fähigkeiten und 3 zu vermeidende
Anleitungen

Praktische Übersicht: 3 wesentliche Clawhub-Fähigkeiten und 3 zu vermeidende

Ein Entwickler testete Clawhub-Fähigkeiten über Wochen und fand drei, die sich zu installieren lohnen: Web-Suche (Brave), Tageszusammenfassung und Gedächtnissuche. Drei andere – Essensbestellung, Multi-Agent-Orchestratoren und Humanizer – verschwenden Tokens und fügen unnötige Komplexität hinzu.

OpenClawRadar
OpenClaw-Integration mit WhatsApp Cloud API
Anleitungen

OpenClaw-Integration mit WhatsApp Cloud API

Ein Entwickler hat OpenClaw so konfiguriert, dass es direkt über Metas offizielle Cloud-API mit WhatsApp kommuniziert, und den Einrichtungsprozess dokumentiert, um anderen zu helfen, verstreute Dokumentation zu vermeiden.

OpenClawRadar