12 GB VRAM Benchmarks: Ausführen von Qwen 3.6 und Gemma 4 Modellen auf einer RTX 4070 Super

✍️ OpenClawRadar📅 Veröffentlicht: 30. April 2026🔗 Source

Ein Reddit-Nutzer hat Geschwindigkeits-Benchmarks für den Betrieb mehrerer großer MoE-Modelle auf einer 12 GB RTX 4070 Super (mit +10% OC) veröffentlicht, gepaart mit einer AMD 9800X3D CPU und 64 GB DDR5-6000 RAM. Der Nutzer lagert die Anzeige auf die iGPU aus, um VRAM zu sparen, und stellt einen Leistungseinbußen von etwa 10% fest, falls dies nicht geschieht. Das Setup verwendet CUDA 13.1 und die neueste llama.cpp mit folgender Hardware-Konfiguration:

n-gpu-layers = 999
threads = 8
threads-batch = 16
batch-size = 4096
ubatch-size = 4096
ctx-size = 65536
flash-attn = true

Benchmark-Ergebnisse

Der Nutzer testete vier Modelle über Unsloth GGUF Quants in VS Code mit Cline und KiloCode (keine Tool-Call-Probleme). Alle Messungen sind in Tokens pro Sekunde (tgs) und Verarbeitung pro Sekunde (pps).

Qwen3.6-35B-A3B-GGUF Q6_K_XL: 40 tgs, 2100 pps
Qwen3.6-27B-IQ3_XXS: 16 tgs, 1000 pps
Gemma 4 26B-A4B-it-UD-Q8: 26 tgs, 2150 pps
Gemma-4-31B-it-IQ3_XXS: 13-16 tgs, 650 pps

Bemerkenswerte Konfigurationsdetails

Der Nutzer teilte individuelle Modellkonfigurationen mit spezifischer Optimierung. Die wichtigsten Punkte:

Für Qwen3.6-35B-A3B: n-cpu-moe = 35 (lagert 35 MoE-Experten auf die CPU aus), cache-type-k = q8_0, cache-type-v = q8_0, swa-full = true, cache-reuse = 512, Kontextgröße 131072, Reasoning aktiviert mit Budget 8096.
Für Gemma 4 26B: n-cpu-moe = 27, Kontext 102400, fit = on mit fit-target = 256 und fit-ctx = 32768.
Für Gemma 4 31B: Verwendet spekulatives Decodieren mit ngram-mod (spec-type = ngram-mod), n-gpu-layers = 58 (teilweises GPU-Offloading), cache-type-k = q4_0, no-kv-offload = true.
Alle Modelle verwenden flash-attn = true und no-mmproj-offload = true.

Das bevorzugte Modell des Nutzers für die Webentwicklung ist Qwen3.6-35B-A3B, das er für seine Qualität und das Fehlen von Tool-Call-Problemen in VS Code-Erweiterungen lobt.

📖 Vollständige Quelle lesen: r/LocalLLaMA

👀 Siehe auch

Anleitungen

Aufbau einer serverlosen KI-Agenten-Plattform auf AWS für 0,01 $/Monat mit Claude Code

Ein Entwickler hat eine komplette AWS-Serverless-Plattform für KI-Agenten für etwa 0,01 $/Monat mit Claude Code über 29 Stunden aufgebaut und teure Komponenten wie NAT Gateway (32 $/Monat) und ALB (18 $/Monat) eliminiert. Das Projekt umfasst 233 Unit-Tests, 35 E2E-Tests und wird mit einem einzigen cdk deploy-Befehl bereitgestellt.

29. März 2026, 15:45 UTC

OpenClawRadar

Anleitungen

Verstehen der KI-Agenten-Architektur: Deterministische vs. probabilistische Schichten

Ein Reddit-Nutzer teilt ein mentales Modell für KI-Agentensysteme, das deterministische Schichten (Skripte, Befehle, APIs) von probabilistischen Schichten (LLM-Schlussfolgerungen und Entscheidungen) trennt. Die zentrale Erkenntnis: Verlagerung möglichst vieler Aufgaben auf die deterministische Seite.

9. März 2026, 04:45 UTC

OpenClawRadar

Anleitungen

Wie ein inaktiver Agent 50 Millionen Token pro Tag verbrannte – und wie man das behebt

Ein inaktiver OpenClaw-Agent hat 50 Millionen Tokens pro Tag durch Heartbeat-Pings mit einer aufgeblähten Session verbraucht. Ein Reddit-Nutzer erklärt, wie er das Leck aufgespürt und mit Konfigurationsänderungen behoben hat.

30. Juni 2026, 00:18 UTC

OpenClawRadar

Anleitungen

Das LLM-Stimmproblem: Vermeidung von KI-generierten Schreibmustern

Ein Entwickler erörtert das häufige Problem, dass LLM-unterstütztes Schreiben erkennbare "LLM-Ismen" aufweist, die sofortige KI-Erkennung auslösen, und teilt einen Artikel über die Identifizierung dieser Muster und das Bearbeiten für Authentizität.

29. März 2026, 10:45 UTC

OpenClawRadar