Qwen 3.6-35B-A3B KV Cache Bench: f16 vs q8_0 vs Turbo3 vs Turbo4 auf M5 Max bis zu 1M Kontext

✍️ OpenClawRadar📅 Veröffentlicht: 28. April 2026🔗 Source
Qwen 3.6-35B-A3B KV Cache Bench: f16 vs q8_0 vs Turbo3 vs Turbo4 auf M5 Max bis zu 1M Kontext
Ad

Ein Reddit-Nutzer führte einen Depth-Sweep auf Qwen 3.6-35B-A3B Q8 mit TheToms TurboQuant Metal Fork von llama.cpp (GitHub: TheTom/llama-cpp-turboquant, Branch feature/turboquant-kv-cache) auf einem MacBook Pro M5 Max mit 128 GB Unified Memory durch. Getestet wurden vier KV-Cache-Typen: f16, q8_0, turbo3 (3-Bit) und turbo4 (4-Bit), symmetrisches K und V, mit Flash-Attn an und Mlock an, von 0 bis 1M Kontext-Token.

Hardware & Build

M5 Max, 128 GB Unified Memory. Erstellt mit cmake -B build -DGGML_METAL=ON. Verwendet wurde llama-bench, 3 Wiederholungen pro Zelle, Flash-Attn an, Mlock an. 8 Stunden Wall-Clock über Nacht.

Generierungsdurchsatz (tok/s)

Tiefef16q8_0turbo3turbo4
089,487,479,579,7
8K84,279,272,271,2
32K72,667,861,561,8
128K44,440,736,037,7
256KOOM26,622,925,5
512KOOMOOM13,316,0
1MOOMOOM6,5OOM

Prompt-Verarbeitungsdurchsatz (tok/s)

Tiefef16q8_0turbo3turbo4
02962294829042854
8K2098162316531439
32K1063802784678
128K321245253206
256KOOM124128101
512KOOMOOM6656
1MOOMOOM30OOM
Ad

Wichtige Erkenntnisse

  • Bei Tiefe 0 führt f16 knapp beim Prefill; turbo3 ist ~10% langsamer beim Decode.
  • Bei 128K erreicht turbo3 Prefill (253 tok/s) das Niveau von q8_0 (245 tok/s) – kleinerer Cache reduziert Bandbreitendruck.
  • Bei 256K gewinnt turbo3 beim Prefill +27% gegenüber turbo4 (128 vs 101), aber turbo4 gewinnt beim Decode +11% (25,5 vs 22,9). Bei 512K vergrößert sich der Decode-Vorsprung auf +20% (turbo4 16,0 vs turbo3 13,3).
  • turbo3 ist der einzige Cache-Typ, der in 1M Kontext passt (6,5 tok/s Decode). Speicher bei 1M: ~89 GB (37 GB Gewichte, ~52 GB KV-Cache).

Workload-Empfehlungen

  • Coding-Agenten (tiefer Kontext, viele generierte Token): turbo4
  • RAG / Batch-QA (viel Prefill, kurze Antworten): turbo3
  • 1M Kontext: nur turbo3
  • Kurz interaktiv (<32K): f16, wenn es passt, sonst q8_0

Einschränkungen

Dies ist ein einzelner M5 Max. Übergänge verschieben sich wahrscheinlich mit Speicherbandbreite und GPU-Kernen. Nur symmetrisches K/V getestet. Asymmetrische Kombinationen (z. B. -ctk q8_0 -ctv turbo4) wurden nicht gemessen. TheToms Fork ist Forschungsqualität, nicht im Hauptzweig von llama.cpp.

📖 Zur vollständigen Quelle: r/LocalLLaMA

Ad

👀 Siehe auch

Meta veröffentlicht BOxCrete KI-Modell für Betonmischungsentwurf
Nachrichten

Meta veröffentlicht BOxCrete KI-Modell für Betonmischungsentwurf

Meta hat Bayesian Optimization for Concrete (BOxCrete) veröffentlicht, ein Open-Source-KI-Modell zur Gestaltung nachhaltiger Betonmischungen unter Verwendung von in den USA produzierten Materialien. Das Modell verbessert frühere Versionen durch bessere Robustheit gegenüber Störungen und verbesserte Vorhersagefähigkeiten für das Setzmaß.

OpenClawRadar
OpenClaw v3.22-Update verursacht Probleme mit Dashboard und WhatsApp
Nachrichten

OpenClaw v3.22-Update verursacht Probleme mit Dashboard und WhatsApp

OpenClaw v3.22 hat die Dashboard-Funktionalität und WhatsApp-Integration beeinträchtigt, wobei zwei GitHub-Issues (#52808 und #52813) die Probleme dokumentieren. Benutzern wird empfohlen, nicht auf diese Version zu aktualisieren.

OpenClawRadar
KI-Abo-Preiskollaps: Warum Ihre Unternehmensrechnung bald 10x höher ist
Nachrichten

KI-Abo-Preiskollaps: Warum Ihre Unternehmensrechnung bald 10x höher ist

KI-Labore wie OpenAI, Anthropic und Microsoft machen mit jedem Abonnement Verluste. Agentische Arbeitslasten haben das Pauschalpreismodell gesprengt – GitHub Copilot wechselt am 1. Juni 2026 zur nutzungsbasierten Abrechnung. Unternehmen, die auf subventionierte Preise gesetzt haben, steht eine Korrektur bevor.

OpenClawRadar
Claude für Word Add-in: Beweise in Analytics API gefunden
Nachrichten

Claude für Word Add-in: Beweise in Analytics API gefunden

Die Analyse-API von Anthropic liefert jetzt Metriken für Claude für Word neben den bestehenden Add-Ins für Excel und PowerPoint, was darauf hindeutet, dass die Word-Integration in Entwicklung ist. Die API zeigt Null-Nutzungszahlen für Word, was darauf schließen lässt, dass sie noch nicht öffentlich verfügbar ist.

OpenClawRadar