Qwen 3.6-35B-A3B KV Cache Bench: M5 Max f16 vs q8

Redditユーザーが、128GBユニファイドメモリを搭載したMacBook Pro M5 Max上で、llama.cppのTheTomのTurboQuant Metalフォーク（GitHub: TheTom/llama-cpp-turboquant、ブランチfeature/turboquant-kv-cache）を使用し、Qwen 3.6-35B-A3B Q8の深度スイープを実行しました。0から100万トークンのコンテキストで、4種類のKVキャッシュタイプ（f16、q8_0、turbo3（3ビット）、turbo4（4ビット）、対称K/V、flash-attnオン、mlockオン）をテストしました。

ハードウェアとビルド

M5 Max、128GBユニファイドメモリ。cmake -B build -DGGML_METAL=ONでビルド。llama-benchを使用、セルあたり3回の試行、flash-attnオン、mlockオン。ウォールクロックで一晩8時間。

生成スループット（tok/s）

深度	f16	q8_0	turbo3	turbo4
0	89.4	87.4	79.5	79.7
8K	84.2	79.2	72.2	71.2
32K	72.6	67.8	61.5	61.8
128K	44.4	40.7	36.0	37.7
256K	OOM	26.6	22.9	25.5
512K	OOM	OOM	13.3	16.0
1M	OOM	OOM	6.5	OOM

プロンプト処理スループット（tok/s）

深度	f16	q8_0	turbo3	turbo4
0	2962	2948	2904	2854
8K	2098	1623	1653	1439
32K	1063	802	784	678
128K	321	245	253	206
256K	OOM	124	128	101
512K	OOM	OOM	66	56
1M	OOM	OOM	30	OOM

主なポイント

深度0では、f16がプリフィルでわずかにリード、turbo3はデコードで約10%低速。
128Kでは、turbo3のプリフィル（253 tok/s）はq8_0（245 tok/s）と同等。キャッシュが小さいため帯域幅の負荷が軽減。
256Kでは、turbo3がプリフィルでturbo4より27%高速（128 vs 101）だが、デコードではturbo4が11%高速（25.5 vs 22.9）。512Kではデコードの差が20%に拡大（turbo4 16.0 vs turbo3 13.3）。
turbo3のみが1Mコンテキストに適合（デコード6.5 tok/s）。1M時のメモリ：約89GB（重み37GB、KVキャッシュ約52GB）。

ワークロードの推奨

コーディングエージェント（深いコンテキスト、多くの生成トークン）：turbo4
RAG / バッチQA（重いプリフィル、短い回答）：turbo3
1Mコンテキスト：turbo3のみ
短いインタラクティブ（32K未満）：f16（収まれば）、それ以外はq8_0

注意点

これは1台のM5 Maxでの結果。クロスオーバーポイントはメモリ帯域幅やGPUコア数によって変化する可能性があります。対称K/Vのみテスト。非対称の組み合わせ（例：-ctk q8_0 -ctv turbo4）は未ベンチ。TheTomのフォークは研究段階であり、llama.cppメインには取り込まれていません。

📖 出典全文： r/LocalLLaMA