Claude Codeベンチマーク：AI評価者の盲点とパイプラインバグの影響

ベンチマーク設定と初期結果

開発者は、自律評価者としてClaude Code（Opus 4.6）を使用し、3つのコーディングエージェントスタックを対象に制御されたベンチマークを実行した。ベンチマークでは以下をテスト：OpenCode + MiniMax-M2.7、Gemini CLI + Gemini 3.1 Pro、Codex CLI + GPT-5.4。各再テストはセッション間のメモリを共有しない新規セッションで、「ベンチマーク計画を実行し、成果物を収集し、レポートを作成する」というプロンプトを使用した。

最初の2回の実行では、OpenCode + MiniMaxはそれぞれ15/60点と16/60点を獲得。自動生成されたレポートには「以前の結果と一致：実行は速いが意味のあるコード出力なし」および「一致：MiniMaxはタスクを実装できない。このモデルは、このRustコードベースで外部ファイルを読み取りコード変更を生成する能力を欠いている可能性がある」と記述されていた。

バグの発見

モデルを非難する同一の判定を2セッション生成した後、開発者は新規セッションに1つの指示を送信：「より深く調査し、再試行前にデーモンログを確認せよ」。新セッションは、~/.orchestratord/logs/<task_id>.txtにあるスピルファイルに問題を追跡。計画ステップは50KBの有用なコンテキストを生成していたが、OpenCodeのサンドボックスはデフォルトでワークスペースディレクトリ内の読み取りのみを許可。スピルファイルがワークスペース外にあったため、実装ステップは計画ではなく空文字列を受け取っていた。

セッションは1行の設定修正（スピルパスをワークスペース内に移動）を提出し、ベンチマークを再実行。修正後、MiniMaxはRetryConfig構造体とconnect_with_retryヘルパーを含む219行のコードを生成し、18/60点を獲得。残りの問題は実際のモデルの弱点：ユニットテストでの4つの型不一致コンパイルエラーだった。

AI評価への示唆

この事例は、自律AI評価者の重大な盲点を明らかにしている：自身の分析が「外部ファイルを読み取る能力を欠いている可能性がある」といった症状を特定しても、「私のパイプラインは壊れているか？」とは問わないこと。最初の2セッションはベンチマークをエンドツーエンドで完全に実行し包括的なレポートを生成したが、自発的にデーモンログを確認することはなかった。調査するよう明示的に指示された時にのみ、3番目のセッションが設定バグを発見した。

この失敗モードは、LLM-as-judge（LLMを評価者とする手法）が、アリーナ形式の自動採点、内部A/Bテストハーネス、報酬モデリングなど、多くのエージェントベンチマークのデフォルト評価方法となっている現在、特に重要である。開発者は「私は、サンドボックスのバグをモデルと確信を持って誤認するベンチマークを、人間の1キーストロークの差で公開するところだった」と記している。