Claude Codeベンチマークが明らかにしたAI評価者の盲点:パイプラインのバグがモデル能力と誤認される問題

✍️ OpenClawRadar📅 公開日: April 16, 2026🔗 Source
Claude Codeベンチマークが明らかにしたAI評価者の盲点:パイプラインのバグがモデル能力と誤認される問題
Ad

ベンチマーク設定と初期結果

開発者は、自律評価者としてClaude Code(Opus 4.6)を使用し、3つのコーディングエージェントスタックを対象に制御されたベンチマークを実行した。ベンチマークでは以下をテスト:OpenCode + MiniMax-M2.7、Gemini CLI + Gemini 3.1 Pro、Codex CLI + GPT-5.4。各再テストはセッション間のメモリを共有しない新規セッションで、「ベンチマーク計画を実行し、成果物を収集し、レポートを作成する」というプロンプトを使用した。

最初の2回の実行では、OpenCode + MiniMaxはそれぞれ15/60点と16/60点を獲得。自動生成されたレポートには「以前の結果と一致:実行は速いが意味のあるコード出力なし」および「一致:MiniMaxはタスクを実装できない。このモデルは、このRustコードベースで外部ファイルを読み取りコード変更を生成する能力を欠いている可能性がある」と記述されていた。

バグの発見

モデルを非難する同一の判定を2セッション生成した後、開発者は新規セッションに1つの指示を送信:「より深く調査し、再試行前にデーモンログを確認せよ」。新セッションは、~/.orchestratord/logs/<task_id>.txtにあるスピルファイルに問題を追跡。計画ステップは50KBの有用なコンテキストを生成していたが、OpenCodeのサンドボックスはデフォルトでワークスペースディレクトリ内の読み取りのみを許可。スピルファイルがワークスペース外にあったため、実装ステップは計画ではなく空文字列を受け取っていた。

セッションは1行の設定修正(スピルパスをワークスペース内に移動)を提出し、ベンチマークを再実行。修正後、MiniMaxはRetryConfig構造体とconnect_with_retryヘルパーを含む219行のコードを生成し、18/60点を獲得。残りの問題は実際のモデルの弱点:ユニットテストでの4つの型不一致コンパイルエラーだった。

Ad

AI評価への示唆

この事例は、自律AI評価者の重大な盲点を明らかにしている:自身の分析が「外部ファイルを読み取る能力を欠いている可能性がある」といった症状を特定しても、「私のパイプラインは壊れているか?」とは問わないこと。最初の2セッションはベンチマークをエンドツーエンドで完全に実行し包括的なレポートを生成したが、自発的にデーモンログを確認することはなかった。調査するよう明示的に指示された時にのみ、3番目のセッションが設定バグを発見した。

この失敗モードは、LLM-as-judge(LLMを評価者とする手法)が、アリーナ形式の自動採点、内部A/Bテストハーネス、報酬モデリングなど、多くのエージェントベンチマークのデフォルト評価方法となっている現在、特に重要である。開発者は「私は、サンドボックスのバグをモデルと確信を持って誤認するベンチマークを、人間の1キーストロークの差で公開するところだった」と記している。

その他のベンチマーク結果

Codex + GPT-5.4が50/60点で首位を獲得したが、step_finishedの成功率はわずか25%(4つのオーケストレーターステップのうち3つが失敗を報告)。開発者はこの奇妙な点を、提供されたソーステキストではさらなる説明なく記している。

📖 Read the full source: r/LocalLLaMA

Ad

👀 See Also

SWE-rebenchリーダーボード更新:2026年2月の結果は接戦を明らかに
News

SWE-rebenchリーダーボード更新:2026年2月の結果は接戦を明らかに

SWE-rebenchリーダーボードが2026年2月の結果で更新され、57の新規GitHub PRタスクがテストされました。Claude Opus 4.6が65.3%の解決率でトップを維持していますが、上位6モデルは5パーセントポイント以内に収まっています。

OpenClawRadar
Amazonのコネクトタレント:AIエージェントが大量採用面接を自動化
News

Amazonのコネクトタレント:AIエージェントが大量採用面接を自動化

AmazonがConnect Talentを発表。大規模採用向けにAIエージェントが自動で面接を実施する。このソフトウェアは人間の介入なしにスクリーニング、面接、メモ作成を処理し、自律型AIエージェントへの広範な取り組みの一環。

OpenClawRadar
Infomaniak、過半数議決権を財団に譲渡しスイスクラウドの独立性を確保
News

Infomaniak、過半数議決権を財団に譲渡しスイスクラウドの独立性を確保

Infomaniakは、議決権の過半数をスイスの公益財団に移譲し、長期的な独立を確保しました。財団の承認なしに買収は不可能です。

OpenClawRadar
Qwen3-30B-A3B と Qwen3.5-35B-A3B の RTX 5090 での性能比較
News

Qwen3-30B-A3B と Qwen3.5-35B-A3B の RTX 5090 での性能比較

RTX 5090上でのQwen3-30B-A3BとQwen3.5-35B-A3Bの直接比較ベンチマークでは、30Bモデルが生成速度で35%速い一方、3.5モデルは長いコンテキストの処理に優れ、トークンスケーリングが平坦であるのに対し、30Bモデルは21%の性能低下を示しています。

OpenClawRadar