Qwen 3.6-35B-A3B KVキャッシュベンチ:M5 Max上のf16対q8_0対Turbo3対Turbo4、最大1Mコンテキスト

✍️ OpenClawRadar📅 公開日: April 28, 2026🔗 Source
Qwen 3.6-35B-A3B KVキャッシュベンチ:M5 Max上のf16対q8_0対Turbo3対Turbo4、最大1Mコンテキスト
Ad

Redditユーザーが、128GBユニファイドメモリを搭載したMacBook Pro M5 Max上で、llama.cppのTheTomのTurboQuant Metalフォーク(GitHub: TheTom/llama-cpp-turboquant、ブランチfeature/turboquant-kv-cache)を使用し、Qwen 3.6-35B-A3B Q8の深度スイープを実行しました。0から100万トークンのコンテキストで、4種類のKVキャッシュタイプ(f16、q8_0、turbo3(3ビット)、turbo4(4ビット)、対称K/V、flash-attnオン、mlockオン)をテストしました。

ハードウェアとビルド

M5 Max、128GBユニファイドメモリ。cmake -B build -DGGML_METAL=ONでビルド。llama-benchを使用、セルあたり3回の試行、flash-attnオン、mlockオン。ウォールクロックで一晩8時間。

生成スループット(tok/s)

深度f16q8_0turbo3turbo4
089.487.479.579.7
8K84.279.272.271.2
32K72.667.861.561.8
128K44.440.736.037.7
256KOOM26.622.925.5
512KOOMOOM13.316.0
1MOOMOOM6.5OOM
Ad

プロンプト処理スループット(tok/s)

深度f16q8_0turbo3turbo4
02962294829042854
8K2098162316531439
32K1063802784678
128K321245253206
256KOOM124128101
512KOOMOOM6656
1MOOMOOM30OOM

主なポイント

  • 深度0では、f16がプリフィルでわずかにリード、turbo3はデコードで約10%低速。
  • 128Kでは、turbo3のプリフィル(253 tok/s)はq8_0(245 tok/s)と同等。キャッシュが小さいため帯域幅の負荷が軽減。
  • 256Kでは、turbo3がプリフィルでturbo4より27%高速(128 vs 101)だが、デコードではturbo4が11%高速(25.5 vs 22.9)。512Kではデコードの差が20%に拡大(turbo4 16.0 vs turbo3 13.3)。
  • turbo3のみが1Mコンテキストに適合(デコード6.5 tok/s)。1M時のメモリ:約89GB(重み37GB、KVキャッシュ約52GB)。

ワークロードの推奨

  • コーディングエージェント(深いコンテキスト、多くの生成トークン):turbo4
  • RAG / バッチQA(重いプリフィル、短い回答):turbo3
  • 1Mコンテキスト:turbo3のみ
  • 短いインタラクティブ(32K未満):f16(収まれば)、それ以外はq8_0

注意点

これは1台のM5 Maxでの結果。クロスオーバーポイントはメモリ帯域幅やGPUコア数によって変化する可能性があります。対称K/Vのみテスト。非対称の組み合わせ(例:-ctk q8_0 -ctv turbo4)は未ベンチ。TheTomのフォークは研究段階であり、llama.cppメインには取り込まれていません。

📖 出典全文: r/LocalLLaMA

Ad

👀 See Also

現在のLLMコスト比較:Deepseek、Qwen、MiniMax対OpenAI
News

現在のLLMコスト比較:Deepseek、Qwen、MiniMax対OpenAI

Redditの分析によると、Deepseek-V3.2は100万トークンあたり0.26ドル/0.38ドルで、GPT-4の約10分の1のコストでありながら、GPT-5クラスのベンチマーク性能を提供しています。Qwen3.5とMiniMax-M2.5は、ClaudeやOpenAIに匹敵する競争力のある代替案を提供しています。

OpenClawRadar
OpenClaw 5.4 が /steer および /side コマンドを追加:エージェントをタスク途中でリダイレクトし、コンテキストを保持
News

OpenClaw 5.4 が /steer および /side コマンドを追加:エージェントをタスク途中でリダイレクトし、コンテキストを保持

OpenClaw 5.4では、エージェントの現在のタスクの方向を変更したり、セッションコンテキストを失わずにサイド会話を開始できる/steerおよび/sideコマンドが導入されました。

OpenClawRadar
Claude Code System Prompts v2.1.53-2.1.55: メモリ選択機能追加、コマンド実行機能削除
News

Claude Code System Prompts v2.1.53-2.1.55: メモリ選択機能追加、コマンド実行機能削除

Claude Codeシステムプロンプトのバージョン2.1.53から2.1.55では、メモリ選択の指示(156トークン)が追加され、コマンド実行スペシャリスト(109トークン)が削除され、プロンプトが約70のアトミックファイルに再編成されました。バックグラウンドエージェントは、出力ファイルパスを提供する代わりに、完了時に自動通知を行うようになりました。

OpenClawRadar
長い会話ではClaudeのシステムプロンプト遵守が低下する
News

長い会話ではClaudeのシステムプロンプト遵守が低下する

Claudeベースのエージェントは、40〜50メッセージを超えるとシステムプロンプトの遵守が低下し、書式設定ルールが無視され、制約が忘れられるようになります。この問題は、システムプロンプトがコンテキストウィンドウ内で会話履歴と注意の重みを競合することに起因しています。

OpenClawRadar