12 GB VRAM Benchmarks: Ausführen von Qwen 3.6 und Gemma 4 Modellen auf einer RTX 4070 Super

Ein Reddit-Nutzer hat Geschwindigkeits-Benchmarks für den Betrieb mehrerer großer MoE-Modelle auf einer 12 GB RTX 4070 Super (mit +10% OC) veröffentlicht, gepaart mit einer AMD 9800X3D CPU und 64 GB DDR5-6000 RAM. Der Nutzer lagert die Anzeige auf die iGPU aus, um VRAM zu sparen, und stellt einen Leistungseinbußen von etwa 10% fest, falls dies nicht geschieht. Das Setup verwendet CUDA 13.1 und die neueste llama.cpp mit folgender Hardware-Konfiguration:
n-gpu-layers = 999
threads = 8
threads-batch = 16
batch-size = 4096
ubatch-size = 4096
ctx-size = 65536
flash-attn = true
Benchmark-Ergebnisse
Der Nutzer testete vier Modelle über Unsloth GGUF Quants in VS Code mit Cline und KiloCode (keine Tool-Call-Probleme). Alle Messungen sind in Tokens pro Sekunde (tgs) und Verarbeitung pro Sekunde (pps).
- Qwen3.6-35B-A3B-GGUF Q6_K_XL: 40 tgs, 2100 pps
- Qwen3.6-27B-IQ3_XXS: 16 tgs, 1000 pps
- Gemma 4 26B-A4B-it-UD-Q8: 26 tgs, 2150 pps
- Gemma-4-31B-it-IQ3_XXS: 13-16 tgs, 650 pps
Bemerkenswerte Konfigurationsdetails
Der Nutzer teilte individuelle Modellkonfigurationen mit spezifischer Optimierung. Die wichtigsten Punkte:
- Für Qwen3.6-35B-A3B:
n-cpu-moe = 35(lagert 35 MoE-Experten auf die CPU aus),cache-type-k = q8_0,cache-type-v = q8_0,swa-full = true,cache-reuse = 512, Kontextgröße 131072, Reasoning aktiviert mit Budget 8096. - Für Gemma 4 26B:
n-cpu-moe = 27, Kontext 102400,fit = onmitfit-target = 256undfit-ctx = 32768. - Für Gemma 4 31B: Verwendet spekulatives Decodieren mit
ngram-mod(spec-type = ngram-mod),n-gpu-layers = 58(teilweises GPU-Offloading),cache-type-k = q4_0,no-kv-offload = true. - Alle Modelle verwenden
flash-attn = trueundno-mmproj-offload = true.
Das bevorzugte Modell des Nutzers für die Webentwicklung ist Qwen3.6-35B-A3B, das er für seine Qualität und das Fehlen von Tool-Call-Problemen in VS Code-Erweiterungen lobt.
📖 Vollständige Quelle lesen: r/LocalLLaMA
👀 Siehe auch

iOS-Kurzbefehl-Umgehung zum Senden von iPhone-Fotos an Cowork über iCloud-Synchronisierung
Ein Entwickler hat eine iOS-Kurzmitteilung namens "PhoPo" erstellt, die iPhone-Fotos in JPEG konvertiert, ihre Größe ändert und in einem iCloud-synchronisierten Ordner speichert, auf den Cowork zugreifen kann, sodass Claude Screenshots und Fotos von Mobilgeräten analysieren kann.

Ein Management-Framework zur effektiven Führung von KI-Agenten
Ein ehemaliger Backend-Lead identifiziert eine Stagnation in der Produktivität von KI-Agenten und schlägt ein Framework vor, das auf drei Disziplinen basiert: Kybernetik, Informationstheorie und Management. Das Framework beschreibt zwei Betriebsmodi: den Kapitän und den Architekten.

Praktische Prompt-Struktur für Claude AI-Ausführungsagenten
Ein Entwickler teilt Prompt-Engineering-Techniken, die Halluzinationen bei Claude-KI-Agenten reduziert haben, die API-Aufrufe, Datenextraktion und mehrstufige Workflows ausführen. Zu den wichtigsten Strategien gehören das Schreiben von Prompts als Verträge, die Reservierung von 40 % der Tokens für die Fehlerbehandlung und die Trennung von 'Warte'- und 'Stopp'-Bedingungen.

Praktische Lehren aus der Entwicklung von On-Device-KI in React Native
Ein Entwickler teilt spezifische technische Details aus dem Aufbau einer React Native App mit On-Device-LLMs, Bildgenerierung, Sprachanalyse und Vision AI, einschließlich Speicherverwaltungsstrategien, Bibliotheksauswahl und Leistungsbenchmarks.