Qwen KVキャッシュ量子化：PPLとKLダイバージェンスの結果

Qwen 3.6-35B-A3B Q8のKVキャッシュ量子化における追跡ベンチマークです。TheTom TurboQuantフォーク（feature/turboquant-kv-cache）をM5 Max上で使用しています。このラウンドでは、パープレキシティ、KLダイバージェンス、非対称K/Vの組み合わせ、および64K深度のデータポイントをカバーします。

品質結果（パープレキシティ + KLダイバージェンス）

コンテキストサイズ4096、wikitext-2データセット。f16をロジットのベースラインとして使用。

q8_0: PPL 5.7433, KL 0.0016, top-1トークン一致率98.64% — 4Kコンテキストでは実質的に無料（PPL差-0.0005、±0.036標準誤差内）。
turbo3 (~4.9x): PPL 5.8092, KL 0.0199, top-1一致率93.93% — PPL約1%増加、トークン不一致5pp。
turbo4 (~3.8x): PPL 5.7810, KL 0.0131, top-1一致率95.28% — q8_0とturbo3の中間で、圧縮率と一致。

品質コストは圧縮率に比例し、驚きはありません。

非対称K/Vスイープ

llama-benchでのデコードtok/s、対称スイープと同じフラグ。主な設定：

-ctk q8_0 -ctv turbo4 が際立つ：256Kで対称q8_0のスループット（27.1 vs 26.6 tg）に匹敵し、対称q8_0がOOMとなる512Kでも動作。q8_0相当のプリフィル品質とturbo4相当のコンテキスト上限を提供。
-ctk q8_0 -ctv turbo3：同様のトリックだがデコードは悪化（V量子化が厳しいため生成に負荷）。
-ctk f16 -ctv turbo4：Metalで動作不良 — FlashAttentionカーネルがこの組み合わせを高速処理できず、汎用のdequant-attentionにフォールバック。8Kでは対称f16より34倍低速、128Kでは78倍低速（4.1 t/s pp）。使用しないでください。

深度128Kでのデコードtok/s例：q8_0 K/turbo4 V 41.0、q8_0 K/turbo3 V 38.2、f16 K/turbo4 V 2.8。

64K深度行

深度65536における全7設定（pp512 / tg128 tok/s）：

f16対称: 602.0 / 59.8
q8_0対称: 479.2 / 57.9
turbo3対称: 469.8 / 49.9
turbo4対称: 418.0 / 55.2
q8_0 K / turbo4 V: 468.2 / 55.9
q8_0 K / turbo3 V: 465.6 / 52.6
f16 K / turbo4 V: 8.3 / 4.9

プリフィル曲線は64Kでほぼ収束：turbo3（470）はq8_0（479）の2%以内。帯域幅制限領域は64Kから128Kの間で発生。

更新された推奨

コーディングエージェント（深いコンテキスト、多くの生成トークン）の場合：-ctk q8_0 -ctv turbo4を使用。Kはq8_0品質、Vはturbo4の節約、512Kに対応。RAGやバッチQA（プリフィル重視、デコード小規模）の場合、対称q8_0またはturbo4が引き続き有効。

📖 ソース全文を読む： r/LocalLLaMA

Qwen KVキャッシュ量子化の深掘り：PPL、KLダイバージェンス、非対称K/V結果

品質結果（パープレキシティ + KLダイバージェンス）

非対称K/Vスイープ

64K深度行

更新された推奨

👀 See Also

OpenClaw AIエージェント間メッセージングとコンテキスト共有に関する議論

Claude-Code v2.1.33：精密さで自動化を強化

ウィキペディアのAIポリシー：記事作成における大規模言語モデルの使用は禁止、ただし校正や翻訳については例外とする

マルチエージェントシステム：エンジニアリングワークフロー対創発的知能