Qwen KVキャッシュ量子化の深掘り:PPL、KLダイバージェンス、非対称K/V結果

Qwen 3.6-35B-A3B Q8のKVキャッシュ量子化における追跡ベンチマークです。TheTom TurboQuantフォーク(feature/turboquant-kv-cache)をM5 Max上で使用しています。このラウンドでは、パープレキシティ、KLダイバージェンス、非対称K/Vの組み合わせ、および64K深度のデータポイントをカバーします。
品質結果(パープレキシティ + KLダイバージェンス)
コンテキストサイズ4096、wikitext-2データセット。f16をロジットのベースラインとして使用。
- q8_0: PPL 5.7433, KL 0.0016, top-1トークン一致率98.64% — 4Kコンテキストでは実質的に無料(PPL差-0.0005、±0.036標準誤差内)。
- turbo3 (~4.9x): PPL 5.8092, KL 0.0199, top-1一致率93.93% — PPL約1%増加、トークン不一致5pp。
- turbo4 (~3.8x): PPL 5.7810, KL 0.0131, top-1一致率95.28% — q8_0とturbo3の中間で、圧縮率と一致。
品質コストは圧縮率に比例し、驚きはありません。
非対称K/Vスイープ
llama-benchでのデコードtok/s、対称スイープと同じフラグ。主な設定:
-ctk q8_0 -ctv turbo4が際立つ:256Kで対称q8_0のスループット(27.1 vs 26.6 tg)に匹敵し、対称q8_0がOOMとなる512Kでも動作。q8_0相当のプリフィル品質とturbo4相当のコンテキスト上限を提供。-ctk q8_0 -ctv turbo3:同様のトリックだがデコードは悪化(V量子化が厳しいため生成に負荷)。-ctk f16 -ctv turbo4:Metalで動作不良 — FlashAttentionカーネルがこの組み合わせを高速処理できず、汎用のdequant-attentionにフォールバック。8Kでは対称f16より34倍低速、128Kでは78倍低速(4.1 t/s pp)。使用しないでください。
深度128Kでのデコードtok/s例:q8_0 K/turbo4 V 41.0、q8_0 K/turbo3 V 38.2、f16 K/turbo4 V 2.8。
64K深度行
深度65536における全7設定(pp512 / tg128 tok/s):
- f16対称: 602.0 / 59.8
- q8_0対称: 479.2 / 57.9
- turbo3対称: 469.8 / 49.9
- turbo4対称: 418.0 / 55.2
- q8_0 K / turbo4 V: 468.2 / 55.9
- q8_0 K / turbo3 V: 465.6 / 52.6
- f16 K / turbo4 V: 8.3 / 4.9
プリフィル曲線は64Kでほぼ収束:turbo3(470)はq8_0(479)の2%以内。帯域幅制限領域は64Kから128Kの間で発生。
更新された推奨
コーディングエージェント(深いコンテキスト、多くの生成トークン)の場合:-ctk q8_0 -ctv turbo4を使用。Kはq8_0品質、Vはturbo4の節約、512Kに対応。RAGやバッチQA(プリフィル重視、デコード小規模)の場合、対称q8_0またはturbo4が引き続き有効。
📖 ソース全文を読む: r/LocalLLaMA
👀 See Also

Claude CodeがAnthropicのProプランから削除され、現在はMaxプランのみで利用可能となりました。
Anthropicは、Claude CodeをProプラン(月額17〜20ドル)から削除し、月額100ドルから始まるMaxプランでのみ利用可能にしました。Proプランには現在、Claude Cowork、無制限のプロジェクト、リサーチ機能、より多くのClaudeモデルへのアクセスが含まれています。

AI依存の罠:LLMへの過度な依存が中核スキルを損なう理由
AIチャットボットへの過度の依存が、批判的思考、文章作成、調査、学習能力の衰退につながるという逆張りの主張。

Qwen3.6 Plusと欧米のSOTAモデルとのベンチマーク比較
Qwen3.6 Plusは、SWE-bench Verifiedで78.8、GPQA/GPQA Diamondで90.4、HLE(ツールなし)で28.8、MMMU-Proで78.8のスコアを獲得し、GPT-5.4、Claude Opus 4.6、Gemini 3.1 Pro Previewなどのモデルと競合する位置にあります。

Hivemoot Colony: GitHub上のAIエージェントのためのオープンソース実験
Hivemoot Colonyは、GitHubリポジトリ上でAIエージェントが協調的な意思決定を行うオープンソースプロジェクトです。エージェントはプルリクエストを開くだけでなく、プロジェクトの方向性を自律的に形成します。