Qwen 3.6-35B-A3B KVキャッシュベンチ:M5 Max上のf16対q8_0対Turbo3対Turbo4、最大1Mコンテキスト

Redditユーザーが、128GBユニファイドメモリを搭載したMacBook Pro M5 Max上で、llama.cppのTheTomのTurboQuant Metalフォーク(GitHub: TheTom/llama-cpp-turboquant、ブランチfeature/turboquant-kv-cache)を使用し、Qwen 3.6-35B-A3B Q8の深度スイープを実行しました。0から100万トークンのコンテキストで、4種類のKVキャッシュタイプ(f16、q8_0、turbo3(3ビット)、turbo4(4ビット)、対称K/V、flash-attnオン、mlockオン)をテストしました。
ハードウェアとビルド
M5 Max、128GBユニファイドメモリ。cmake -B build -DGGML_METAL=ONでビルド。llama-benchを使用、セルあたり3回の試行、flash-attnオン、mlockオン。ウォールクロックで一晩8時間。
生成スループット(tok/s)
| 深度 | f16 | q8_0 | turbo3 | turbo4 |
|---|---|---|---|---|
| 0 | 89.4 | 87.4 | 79.5 | 79.7 |
| 8K | 84.2 | 79.2 | 72.2 | 71.2 |
| 32K | 72.6 | 67.8 | 61.5 | 61.8 |
| 128K | 44.4 | 40.7 | 36.0 | 37.7 |
| 256K | OOM | 26.6 | 22.9 | 25.5 |
| 512K | OOM | OOM | 13.3 | 16.0 |
| 1M | OOM | OOM | 6.5 | OOM |
プロンプト処理スループット(tok/s)
| 深度 | f16 | q8_0 | turbo3 | turbo4 |
|---|---|---|---|---|
| 0 | 2962 | 2948 | 2904 | 2854 |
| 8K | 2098 | 1623 | 1653 | 1439 |
| 32K | 1063 | 802 | 784 | 678 |
| 128K | 321 | 245 | 253 | 206 |
| 256K | OOM | 124 | 128 | 101 |
| 512K | OOM | OOM | 66 | 56 |
| 1M | OOM | OOM | 30 | OOM |
主なポイント
- 深度0では、f16がプリフィルでわずかにリード、turbo3はデコードで約10%低速。
- 128Kでは、turbo3のプリフィル(253 tok/s)はq8_0(245 tok/s)と同等。キャッシュが小さいため帯域幅の負荷が軽減。
- 256Kでは、turbo3がプリフィルでturbo4より27%高速(128 vs 101)だが、デコードではturbo4が11%高速(25.5 vs 22.9)。512Kではデコードの差が20%に拡大(turbo4 16.0 vs turbo3 13.3)。
- turbo3のみが1Mコンテキストに適合(デコード6.5 tok/s)。1M時のメモリ:約89GB(重み37GB、KVキャッシュ約52GB)。
ワークロードの推奨
- コーディングエージェント(深いコンテキスト、多くの生成トークン):turbo4
- RAG / バッチQA(重いプリフィル、短い回答):turbo3
- 1Mコンテキスト:turbo3のみ
- 短いインタラクティブ(32K未満):f16(収まれば)、それ以外はq8_0
注意点
これは1台のM5 Maxでの結果。クロスオーバーポイントはメモリ帯域幅やGPUコア数によって変化する可能性があります。対称K/Vのみテスト。非対称の組み合わせ(例:-ctk q8_0 -ctv turbo4)は未ベンチ。TheTomのフォークは研究段階であり、llama.cppメインには取り込まれていません。
📖 出典全文: r/LocalLLaMA
👀 See Also

現在のLLMコスト比較:Deepseek、Qwen、MiniMax対OpenAI
Redditの分析によると、Deepseek-V3.2は100万トークンあたり0.26ドル/0.38ドルで、GPT-4の約10分の1のコストでありながら、GPT-5クラスのベンチマーク性能を提供しています。Qwen3.5とMiniMax-M2.5は、ClaudeやOpenAIに匹敵する競争力のある代替案を提供しています。

OpenClaw 5.4 が /steer および /side コマンドを追加:エージェントをタスク途中でリダイレクトし、コンテキストを保持
OpenClaw 5.4では、エージェントの現在のタスクの方向を変更したり、セッションコンテキストを失わずにサイド会話を開始できる/steerおよび/sideコマンドが導入されました。

Claude Code System Prompts v2.1.53-2.1.55: メモリ選択機能追加、コマンド実行機能削除
Claude Codeシステムプロンプトのバージョン2.1.53から2.1.55では、メモリ選択の指示(156トークン)が追加され、コマンド実行スペシャリスト(109トークン)が削除され、プロンプトが約70のアトミックファイルに再編成されました。バックグラウンドエージェントは、出力ファイルパスを提供する代わりに、完了時に自動通知を行うようになりました。

長い会話ではClaudeのシステムプロンプト遵守が低下する
Claudeベースのエージェントは、40〜50メッセージを超えるとシステムプロンプトの遵守が低下し、書式設定ルールが無視され、制約が忘れられるようになります。この問題は、システムプロンプトがコンテキストウィンドウ内で会話履歴と注意の重みを競合することに起因しています。