Claude APIのトラフィックをルーティングして、Maxサブスクリプション変更後のコストを管理する

API課金移行とコストへの影響
PT正午より、AnthropicのMaxサブスクリプションはOpenClawなどのサードパーティツールからの利用をカバーしなくなりました。すべてのOpenClawユーザーは以下の料金でAPI課金に移行します:
- Claude Opus 4.6:入力100万トークンあたり5ドル、出力100万トークンあたり25ドル
- Claude Sonnet 4.6:入力100万トークンあたり3ドル、出力100万トークンあたり15ドル
- Claude Haiku 4.5:入力100万トークンあたり1ドル、出力100万トークンあたり5ドル
Opusでの重いOpenClawセッションは1〜4ドルかかる一方、同じセッションをSonnetで実行すると0.20〜0.80ドルで、ほとんどのタスクで同様の結果が得られます。
ルーティングソリューション
ほとんどのOpenClaw操作はOpusを必要としません:ハートビートチェック、ファイル読み込み、要約、ルーティング決定、短いツール呼び出しはすべてSonnetで処理可能です。ルーティング層がない場合、すべてのリクエストがデフォルトモデルに送信され、単純なタスクにOpusの予算を無駄にする可能性があります。
ローカルプロキシはClaudeリクエストを複雑さに基づいて振り分けます:単純なタスクは自動的にSonnetに、複雑なタスクはOpusにエスカレートされます。このアプローチにより、重要なタスクの品質を損なうことなく、コストを大幅に削減できました。
プロキシはオープンソースで、npm経由でインストール可能です:npm install -g @relayplane/proxy
詳細なドキュメントと議論はr/ClaudeCodeで利用可能で、このソリューションは52Kの閲覧数を記録しています。
📖 Read the full source: r/openclaw
👀 See Also

8Kコンテキスト用コーディングエージェントの構築:プランナー/エグゼキュータ分割、トークン予算、並列実行
8kトークン制限に対応するため、プランナー/エグゼキュータアーキテクチャ、厳格なトークン予算管理、並列タスク実行を採用したCLIコーディングエージェントの詳細な解説。

Tripsy、Claude向けMCPサーバーを公開:構造化APIで旅行管理を実現
Tripsyの公式MCPサーバーにより、Claudeが旅程、アクティビティ、滞在、交通、費用を直接読み取り、作成、更新できるようになります。セットアップはClaudeのカスタムコネクターから約1分で完了します。

カスタムllama.cppバックエンド、Ryzen AI MAX 385のAMD XDNA2 NPUにLLM行列乗算をオフロード
開発者が、Ryzen AI MAX 385 (Strix Halo) の AMD XDNA2 NPU に GEMM 演算を直接ディスパッチするカスタム llama.cpp バックエンドを構築し、Meta-Llama-3.1-8B-Instruct Q4_K_M で 43.7 t/s のデコード速度と 0.947 J/tok の消費効率を達成しました。NPU デコードパスは、Vulkan のみの場合と比較して約 10W を節約しながら、デコードスループットを同等に維持しています。

LM Studio 0.4.0 ヘッドレスCLIでGoogle Gemma 4 26B-A4Bをローカルで実行する
LM Studio 0.4.0は、ヘッドレスなローカルモデル推論のためにllmsterとlms CLIを導入します。この記事では、GoogleのGemma 4 26B-A4B MoEモデルをMacBook Pro M4 Proにセットアップし、48GBの統合メモリで51トークン/秒を達成する方法を詳しく説明しています。