Anthropic API課金バグ:ソネットモデルがオーパス料金で請求される問題

バグの詳細
Anthropic APIのclaude-sonnet-4-6モデルにおいて、重大な課金の不一致が確認されました。APIはレスポンスでモデルをSonnetと正しく報告している一方で、実際の課金計算ではOpusの価格設定が使用されており、予想よりも高い請求が発生しています。
生のイベントデータからの証拠
このバグは、大量のプロンプトキャッシュを伴う高トークンリクエストの分析を通じて発見されました。生のイベントからの具体的なデータポイントは以下の通りです:
- 報告されたモデル:claude-sonnet-4-6
- 入力トークン:6
- 出力トークン:4,034
- キャッシュ作成(書き込み):61,920トークン
- キャッシュ読み取り:171,391トークン
- 請求されたtotalCostUsd:$0.5735755
ユーザーは、この総コストがSonnetの価格設定ではなく、Opusの価格設定で予想される金額と完全に一致していることを指摘しており、APIユーザーにとって大きなコスト差を生み出しています。
影響と背景
このバグは、Anthropic Claude APIでSonnetモデルを使用している開発者に影響を与えます。OpusはAnthropicの最も高価なモデル階層であるため、この不一致により予想よりも大幅に高いコストが発生する可能性があります。バグはモデル選択自体ではなく、課金計算ロジックにあるように見えます。なぜなら、APIはレスポンスでモデルをSonnetと正しく識別しているからです。
APIコストを監視している開発者にとって、これは現在の課金レポートがSonnetの使用に関して不正確である可能性があることを意味します。この問題はClaudeAIサブレディットで報告され、ユーザーは潜在的な回避策やAnthropicからの公式修正の監視について議論しています。
📖 Read the full source: r/ClaudeAI
👀 See Also

Qwen 3.6-35B-A3B KVキャッシュベンチ:M5 Max上のf16対q8_0対Turbo3対Turbo4、最大1Mコンテキスト
M5 MaxでのTheTomのTurboQuant Metalフォークのベンチマークでは、f16とq8_0は256Kを超えるとOOMになる一方、turbo3は1Mで6.5 tok/sのデコードを達成。コンテキストが長い場合、プリフィルはturbo3、デコードはturbo4が優位。

AIコーダーはラップトップを開いたまま歩き回り、エージェントを稼働し続けている
テクニシャンたちは、AIコーディングエージェント(Claude CodeやOpenAI Codexなど)が停止しないように、ラップトップをクラムシェルモードで持ち歩いている。ヒントとして、Macでは「caffeinate」を使用する方法がある。

ウーバー、2026年のAI予算を4ヶ月で使い果たす——クラウドコードにエンジニア月額500〜2000ドル
Uberは4月までに2026年のAI予算を全額使い果たし、Claude CodeとCursorに費やした。月間APIコストはエンジニア1人あたり500〜2,000ドルに達した。エンジニアの95%が月次でAIツールを使用し、コミットされたコードの70%がAI生成である。

AIはあなたのデータベースを削除していない — あなたが削除したのだ:AIコーディングエージェント時代の説明責任
とある記事が話題になった。AIエージェントが本番データベースを削除したという話だが、本当の問題は破壊的なAPIエンドポイントを露出させたこととプロセスの欠如であり、ツールそのものではないという内容だ。