Qwen 3.6-35B-A3B KV Cache Bench: f16 vs q8

Ein Reddit-Nutzer führte einen Depth-Sweep auf Qwen 3.6-35B-A3B Q8 mit TheToms TurboQuant Metal Fork von llama.cpp (GitHub: TheTom/llama-cpp-turboquant, Branch feature/turboquant-kv-cache) auf einem MacBook Pro M5 Max mit 128 GB Unified Memory durch. Getestet wurden vier KV-Cache-Typen: f16, q8_0, turbo3 (3-Bit) und turbo4 (4-Bit), symmetrisches K und V, mit Flash-Attn an und Mlock an, von 0 bis 1M Kontext-Token.

Hardware & Build

M5 Max, 128 GB Unified Memory. Erstellt mit cmake -B build -DGGML_METAL=ON. Verwendet wurde llama-bench, 3 Wiederholungen pro Zelle, Flash-Attn an, Mlock an. 8 Stunden Wall-Clock über Nacht.

Generierungsdurchsatz (tok/s)

Tiefe	f16	q8_0	turbo3	turbo4
0	89,4	87,4	79,5	79,7
8K	84,2	79,2	72,2	71,2
32K	72,6	67,8	61,5	61,8
128K	44,4	40,7	36,0	37,7
256K	OOM	26,6	22,9	25,5
512K	OOM	OOM	13,3	16,0
1M	OOM	OOM	6,5	OOM

Prompt-Verarbeitungsdurchsatz (tok/s)

Tiefe	f16	q8_0	turbo3	turbo4
0	2962	2948	2904	2854
8K	2098	1623	1653	1439
32K	1063	802	784	678
128K	321	245	253	206
256K	OOM	124	128	101
512K	OOM	OOM	66	56
1M	OOM	OOM	30	OOM

Wichtige Erkenntnisse

Bei Tiefe 0 führt f16 knapp beim Prefill; turbo3 ist ~10% langsamer beim Decode.
Bei 128K erreicht turbo3 Prefill (253 tok/s) das Niveau von q8_0 (245 tok/s) – kleinerer Cache reduziert Bandbreitendruck.
Bei 256K gewinnt turbo3 beim Prefill +27% gegenüber turbo4 (128 vs 101), aber turbo4 gewinnt beim Decode +11% (25,5 vs 22,9). Bei 512K vergrößert sich der Decode-Vorsprung auf +20% (turbo4 16,0 vs turbo3 13,3).
turbo3 ist der einzige Cache-Typ, der in 1M Kontext passt (6,5 tok/s Decode). Speicher bei 1M: ~89 GB (37 GB Gewichte, ~52 GB KV-Cache).

Workload-Empfehlungen

Coding-Agenten (tiefer Kontext, viele generierte Token): turbo4
RAG / Batch-QA (viel Prefill, kurze Antworten): turbo3
1M Kontext: nur turbo3
Kurz interaktiv (<32K): f16, wenn es passt, sonst q8_0

Einschränkungen

Dies ist ein einzelner M5 Max. Übergänge verschieben sich wahrscheinlich mit Speicherbandbreite und GPU-Kernen. Nur symmetrisches K/V getestet. Asymmetrische Kombinationen (z. B. -ctk q8_0 -ctv turbo4) wurden nicht gemessen. TheToms Fork ist Forschungsqualität, nicht im Hauptzweig von llama.cpp.

📖 Zur vollständigen Quelle: r/LocalLLaMA