DeepSeek V4 Flash コスト分析:キャッシュヒット率と価格比率の解説

あるRedditユーザーが、OpenClaw(PIエージェントループ使用)とOpenRouter上で動作する922件のエージェントタクトレースを分析し、DeepSeek V4 FlashとOpus 4.7を比較しました。コストの差は驚くべきものです:DeepSeekは1タスクあたり0.01ドル、Opusは1.52ドルで、トークン数(平均約962K)やツール呼び出し数(平均約14)はほぼ同じです。価格比は0.0066倍で、入力トークンの価格のみから予想される0.03倍を大幅に下回っています。
DeepSeekが安い理由:キャッシュヒット率と読み書き価格
この差には2つの要因があります:
- キャッシュヒット率: DeepSeek V4 Flashは97%に対し、Opus 4.7は87%。これらのキャッシュ読み書き価格比では、キャッシュヒット率が1%高いごとに全体コストが約20%低下します。DeepSeekの10%の優位性により、総コストの約3分の2が削減されます。
- キャッシュ読み書き価格比: DeepSeekの比率は0.02(キャッシュ読み取りコストはキャッシュミス書き込みの2%)ですが、Opusは0.08で、OpenAI、Anthropic、Gemini(0.08~0.10)と同等です。これだけでさらにコストが半減します。
積み上げ効果
タスクあたりのトークン数とツール数が同程度であるため、DeepSeekの総コストはOpusの0.0066倍になります。ユーザーは、これらの効率改善がインフラストラクチャまたはモデルアーキテクチャレベル(例えば、より優れたキャッシュ戦略)で設計されていると推測しています。正確なメカニズムは公開されていません。
📖 出典全文を読む: r/LocalLLaMA
👀 See Also

GitHubのIPアドレスによるブロックを行っている組織におけるClaude接続障害
自動ステータス更新により、IPアドレスでGitHubアクセスを制限している組織で接続障害が報告されています。進行中のインシデントはstatus.claude.comで追跡しています。

M5 MaxとM3 Maxの推論ベンチマーク比較:oMLX上のQwenモデル
oMLX v0.2.23を使用したQwen 3.5モデルのベンチマーク比較によると、M5 Max搭載MacBook ProはM3 Max搭載モデルと比較して、トークン生成速度が1.4〜1.7倍、長いコンテキストでのプリフィル速度は最大4倍高速であることが示されています。

Anthropicがモデルバージョンの固定を解除、クライアントアプリケーションに影響
Anthropicはclaude-sonnet-4-5-20250929モデルを廃止し、ユーザーをclaude-sonnet-4-6に強制的に移行させています。これは常に最新バージョンを指し、特定のバージョンを固定する方法がありません。つまり、モデルバージョンが変更されると、クライアントアプリケーションは予測不可能なタイミングで動作しなくなる可能性があります。

Anthropic、ChatGPT/GeminiからClaudeへの切り替えにメモリ移行機能を追加
Anthropicの新しいメモリインポート機能により、ユーザーはChatGPT、Gemini、その他のAIからClaudeへ、好み、プロジェクト、コンテキスト、作業スタイルを約2回のコピー&ペーストで転送でき、一から再トレーニングする必要がなくなります。