Qwen KVキャッシュ量子化の深掘り:PPL、KLダイバージェンス、非対称K/V結果

✍️ OpenClawRadar📅 公開日: April 29, 2026🔗 Source
Qwen KVキャッシュ量子化の深掘り:PPL、KLダイバージェンス、非対称K/V結果
Ad

Qwen 3.6-35B-A3B Q8のKVキャッシュ量子化における追跡ベンチマークです。TheTom TurboQuantフォーク(feature/turboquant-kv-cache)をM5 Max上で使用しています。このラウンドでは、パープレキシティ、KLダイバージェンス、非対称K/Vの組み合わせ、および64K深度のデータポイントをカバーします。

品質結果(パープレキシティ + KLダイバージェンス)

コンテキストサイズ4096、wikitext-2データセット。f16をロジットのベースラインとして使用。

  • q8_0: PPL 5.7433, KL 0.0016, top-1トークン一致率98.64% — 4Kコンテキストでは実質的に無料(PPL差-0.0005、±0.036標準誤差内)。
  • turbo3 (~4.9x): PPL 5.8092, KL 0.0199, top-1一致率93.93% — PPL約1%増加、トークン不一致5pp。
  • turbo4 (~3.8x): PPL 5.7810, KL 0.0131, top-1一致率95.28% — q8_0とturbo3の中間で、圧縮率と一致。

品質コストは圧縮率に比例し、驚きはありません。

非対称K/Vスイープ

llama-benchでのデコードtok/s、対称スイープと同じフラグ。主な設定:

  • -ctk q8_0 -ctv turbo4 が際立つ:256Kで対称q8_0のスループット(27.1 vs 26.6 tg)に匹敵し、対称q8_0がOOMとなる512Kでも動作。q8_0相当のプリフィル品質とturbo4相当のコンテキスト上限を提供。
  • -ctk q8_0 -ctv turbo3:同様のトリックだがデコードは悪化(V量子化が厳しいため生成に負荷)。
  • -ctk f16 -ctv turbo4:Metalで動作不良 — FlashAttentionカーネルがこの組み合わせを高速処理できず、汎用のdequant-attentionにフォールバック。8Kでは対称f16より34倍低速、128Kでは78倍低速(4.1 t/s pp)。使用しないでください

深度128Kでのデコードtok/s例:q8_0 K/turbo4 V 41.0、q8_0 K/turbo3 V 38.2、f16 K/turbo4 V 2.8。

Ad

64K深度行

深度65536における全7設定(pp512 / tg128 tok/s):

  • f16対称: 602.0 / 59.8
  • q8_0対称: 479.2 / 57.9
  • turbo3対称: 469.8 / 49.9
  • turbo4対称: 418.0 / 55.2
  • q8_0 K / turbo4 V: 468.2 / 55.9
  • q8_0 K / turbo3 V: 465.6 / 52.6
  • f16 K / turbo4 V: 8.3 / 4.9

プリフィル曲線は64Kでほぼ収束:turbo3(470)はq8_0(479)の2%以内。帯域幅制限領域は64Kから128Kの間で発生。

更新された推奨

コーディングエージェント(深いコンテキスト、多くの生成トークン)の場合:-ctk q8_0 -ctv turbo4を使用。Kはq8_0品質、Vはturbo4の節約、512Kに対応。RAGやバッチQA(プリフィル重視、デコード小規模)の場合、対称q8_0またはturbo4が引き続き有効。

📖 ソース全文を読む: r/LocalLLaMA

Ad

👀 See Also

Claude CodeがAnthropicのProプランから削除され、現在はMaxプランのみで利用可能となりました。
News

Claude CodeがAnthropicのProプランから削除され、現在はMaxプランのみで利用可能となりました。

Anthropicは、Claude CodeをProプラン(月額17〜20ドル)から削除し、月額100ドルから始まるMaxプランでのみ利用可能にしました。Proプランには現在、Claude Cowork、無制限のプロジェクト、リサーチ機能、より多くのClaudeモデルへのアクセスが含まれています。

OpenClawRadar
AI依存の罠:LLMへの過度な依存が中核スキルを損なう理由
News

AI依存の罠:LLMへの過度な依存が中核スキルを損なう理由

AIチャットボットへの過度の依存が、批判的思考、文章作成、調査、学習能力の衰退につながるという逆張りの主張。

OpenClawRadar
Qwen3.6 Plusと欧米のSOTAモデルとのベンチマーク比較
News

Qwen3.6 Plusと欧米のSOTAモデルとのベンチマーク比較

Qwen3.6 Plusは、SWE-bench Verifiedで78.8、GPQA/GPQA Diamondで90.4、HLE(ツールなし)で28.8、MMMU-Proで78.8のスコアを獲得し、GPT-5.4、Claude Opus 4.6、Gemini 3.1 Pro Previewなどのモデルと競合する位置にあります。

OpenClawRadar
Hivemoot Colony: GitHub上のAIエージェントのためのオープンソース実験
News

Hivemoot Colony: GitHub上のAIエージェントのためのオープンソース実験

Hivemoot Colonyは、GitHubリポジトリ上でAIエージェントが協調的な意思決定を行うオープンソースプロジェクトです。エージェントはプルリクエストを開くだけでなく、プロジェクトの方向性を自律的に形成します。

OpenClawRadar