12 GB VRAM Benchmarks: Ausführen von Qwen 3.6 und Gemma 4 Modellen auf einer RTX 4070 Super

✍️ OpenClawRadar📅 Veröffentlicht: 30. April 2026🔗 Source
12 GB VRAM Benchmarks: Ausführen von Qwen 3.6 und Gemma 4 Modellen auf einer RTX 4070 Super
Ad

Ein Reddit-Nutzer hat Geschwindigkeits-Benchmarks für den Betrieb mehrerer großer MoE-Modelle auf einer 12 GB RTX 4070 Super (mit +10% OC) veröffentlicht, gepaart mit einer AMD 9800X3D CPU und 64 GB DDR5-6000 RAM. Der Nutzer lagert die Anzeige auf die iGPU aus, um VRAM zu sparen, und stellt einen Leistungseinbußen von etwa 10% fest, falls dies nicht geschieht. Das Setup verwendet CUDA 13.1 und die neueste llama.cpp mit folgender Hardware-Konfiguration:

n-gpu-layers = 999
threads = 8
threads-batch = 16
batch-size = 4096
ubatch-size = 4096
ctx-size = 65536
flash-attn = true

Benchmark-Ergebnisse

Der Nutzer testete vier Modelle über Unsloth GGUF Quants in VS Code mit Cline und KiloCode (keine Tool-Call-Probleme). Alle Messungen sind in Tokens pro Sekunde (tgs) und Verarbeitung pro Sekunde (pps).

  • Qwen3.6-35B-A3B-GGUF Q6_K_XL: 40 tgs, 2100 pps
  • Qwen3.6-27B-IQ3_XXS: 16 tgs, 1000 pps
  • Gemma 4 26B-A4B-it-UD-Q8: 26 tgs, 2150 pps
  • Gemma-4-31B-it-IQ3_XXS: 13-16 tgs, 650 pps
Ad

Bemerkenswerte Konfigurationsdetails

Der Nutzer teilte individuelle Modellkonfigurationen mit spezifischer Optimierung. Die wichtigsten Punkte:

  • Für Qwen3.6-35B-A3B: n-cpu-moe = 35 (lagert 35 MoE-Experten auf die CPU aus), cache-type-k = q8_0, cache-type-v = q8_0, swa-full = true, cache-reuse = 512, Kontextgröße 131072, Reasoning aktiviert mit Budget 8096.
  • Für Gemma 4 26B: n-cpu-moe = 27, Kontext 102400, fit = on mit fit-target = 256 und fit-ctx = 32768.
  • Für Gemma 4 31B: Verwendet spekulatives Decodieren mit ngram-mod (spec-type = ngram-mod), n-gpu-layers = 58 (teilweises GPU-Offloading), cache-type-k = q4_0, no-kv-offload = true.
  • Alle Modelle verwenden flash-attn = true und no-mmproj-offload = true.

Das bevorzugte Modell des Nutzers für die Webentwicklung ist Qwen3.6-35B-A3B, das er für seine Qualität und das Fehlen von Tool-Call-Problemen in VS Code-Erweiterungen lobt.

📖 Vollständige Quelle lesen: r/LocalLLaMA

Ad

👀 Siehe auch

iOS-Kurzbefehl-Umgehung zum Senden von iPhone-Fotos an Cowork über iCloud-Synchronisierung
Anleitungen

iOS-Kurzbefehl-Umgehung zum Senden von iPhone-Fotos an Cowork über iCloud-Synchronisierung

Ein Entwickler hat eine iOS-Kurzmitteilung namens "PhoPo" erstellt, die iPhone-Fotos in JPEG konvertiert, ihre Größe ändert und in einem iCloud-synchronisierten Ordner speichert, auf den Cowork zugreifen kann, sodass Claude Screenshots und Fotos von Mobilgeräten analysieren kann.

OpenClawRadar
Ein Management-Framework zur effektiven Führung von KI-Agenten
Anleitungen

Ein Management-Framework zur effektiven Führung von KI-Agenten

Ein ehemaliger Backend-Lead identifiziert eine Stagnation in der Produktivität von KI-Agenten und schlägt ein Framework vor, das auf drei Disziplinen basiert: Kybernetik, Informationstheorie und Management. Das Framework beschreibt zwei Betriebsmodi: den Kapitän und den Architekten.

OpenClawRadar
Praktische Prompt-Struktur für Claude AI-Ausführungsagenten
Anleitungen

Praktische Prompt-Struktur für Claude AI-Ausführungsagenten

Ein Entwickler teilt Prompt-Engineering-Techniken, die Halluzinationen bei Claude-KI-Agenten reduziert haben, die API-Aufrufe, Datenextraktion und mehrstufige Workflows ausführen. Zu den wichtigsten Strategien gehören das Schreiben von Prompts als Verträge, die Reservierung von 40 % der Tokens für die Fehlerbehandlung und die Trennung von 'Warte'- und 'Stopp'-Bedingungen.

OpenClawRadar
Praktische Lehren aus der Entwicklung von On-Device-KI in React Native
Anleitungen

Praktische Lehren aus der Entwicklung von On-Device-KI in React Native

Ein Entwickler teilt spezifische technische Details aus dem Aufbau einer React Native App mit On-Device-LLMs, Bildgenerierung, Sprachanalyse und Vision AI, einschließlich Speicherverwaltungsstrategien, Bibliotheksauswahl und Leistungsbenchmarks.

OpenClawRadar