Claude Codeのパフォーマンス低下の原因特定:設定の問題、モデルの知能ではない

Anthropicは、Claude Codeの最近のパフォーマンス低下に関するポストモーテムを公開した。この発見は、コミュニティの当初の認識に反するものである。つまり、劣化はモデルが賢くなったわけではなく、3つの製品設定の変更によるものだった。
低下を引き起こした3つの具体的な変更
- デフォルトの推論努力の低下: ハーネスがデフォルトの推論努力を減らしたため、分析が浅くなった。
- セッションキャッシュのバグ: バグにより、キャッシュから以前の思考が消去され、ターン間の連続性が損なわれた。
- プロンプトの冗長性の変更: プロンプトの変更で冗長性が減り、コード出力の品質が低下した。
Anthropicは最新のパッチでこれらの変更をロールバックし、パフォーマンスは以前のレベルに戻った。同じモデル、異なる設定、異なる動作である。
AIコーディングエージェントを利用するチームへの示唆
実務的な教訓は、信頼の単位についてである。モデルを信頼する場合、動作が変わればモデルを切り替える。インスタンスを信頼する場合、設定が変わった証拠を探す。これらの2つの対応には全く異なるツールが必要であり、ほとんどのチームはセッションレベルの証拠を持たず、どのエージェントがパフォーマンスを発揮しているかについての感覚に頼っている。
このポストモーテムが有用なのは、議論を解決するからではなく、証拠レイヤーが実際にある場合にどのように見えるかを示しているからである。Claude Codeを実行するチームにとって、セッションレベルの設定差分とキャッシュ状態を追跡することは、現在実用的な必須事項である。
📖 全文を読む: r/ClaudeAI
👀 See Also

ThermoQA:エンジニアリング熱力学のためのオープンベンチマーク、293の計算問題でLLMをテスト
ThermoQAは、3つの階層にわたる293の工学熱力学問題からなるオープンベンチマークで、LLMの正確な数値計算能力をテストします。Claude Opus 4.6が94.1%の総合スコアで首位を走り、DeepSeek-R1は±2.5%で実行間のばらつきが最も大きくなっています。

Claude Code 2.1.132:マルチエージェントドキュメント、スケジュールゲート、スキル制限の変更
リリースv2.1.132では、マルチエージェントセッション、成果、ウェブフックに関するManaged Agentsのドキュメントが追加され、プロアクティブな/スケジュール提案に対してデフォルト拒否ゲートが導入され、エージェントあたりの文書化されたスキル上限が64から20に引き下げられました。

Claude Opus 4.7 システムプロンプトの変更点:プラットフォーム名変更、ツール統合、および動作更新
Anthropicは、Claude Opusのシステムプロンプトをバージョン4.6(2026年2月5日)から4.7(2026年4月16日)に更新し、「開発者プラットフォーム」を「Claude Platform」に改名、ツールリストにClaude in Powerpointを追加、児童安全に関する指示を拡充、ツール使用と応答の簡潔さに関する新しい行動指針を導入しました。

ボーリウムAIプロテオミクスコンペティション2026 - 13,000ドルの賞金と計算リソース支援
Bohriumは2026年に開催予定のAIプロテオミクスコンペティションを実施し、13,000ドルの賞金総額、インターンシップの機会、および計算リソースのサポートを提供します。このコンペティションはHacker Newsで話題となり、17ポイントと5件のコメントが寄せられました。