Claude Opus 4.1 SWE-Bench Pro 17.75%：記憶と推論のギャップ

ベンチマーク結果が示す大きなパフォーマンスギャップ

Claude Opus 4.1はSWE-Bench Verifiedで80%以上を達成しましたが、SWE-Bench Proのプライベートデータセットではわずか17.75%のスコアでした。このデータセットには、GitHub上に一度も公開されたことのない18のプロプライエタリなスタートアップコードベースから抽出された276のタスクが含まれており、GPLライセンスの公開リポジトリを通じたデータ汚染を排除するために特別に設計されています。

同じプライベートデータセットにおける他のモデルの結果：GPT-5.2は23.81%（リーダーボードトップ）、Gemini 3 Proは17.95%を獲得しました。

軌跡分析が記憶依存の行動を明らかに

Scale AIの分析によると、テスト中にモデルは、馴染みのあるリポジトリでは問題の説明を完全に読む前に修正すべき正しいファイルパスを特定できていました。これは、問題を推論して解決するのではなく、記憶に基づいてナビゲートしていたことを示しています。

SWE-Bench Verifiedでの80%のスコアは実際のものでしたが、ほとんどの人が想定していた能力とは異なるものを測定していました。主に新しいコードについて推論するのではなく、トレーニングデータの記憶を測定していたのです。

AIコーディングツール導入における実用的な示唆

開発者がワークフローのどこにAIコーディングツールを導入するかを決定する際には、見出しのベンチマーク数値よりも、記憶と推論の区別の方が重要です。汚染されたベンチマークで良好なパフォーマンスを示すモデルでも、トレーニング中に見たことのない真に新しいコードベースでは苦戦する可能性があります。

SWE-Bench Proは、GitHubやトレーニングデータセットに一度も公開されたことのないコードを使用することで、この汚染問題に対処するために特別に作成されました。

📖 完全なソースを読む： r/ClaudeAI

Claude Opus 4.1は、SWE-Bench Proのプライベートデータセットにおいて17.75%のスコアを記録し、記憶力と推論力のギャップを浮き彫りにしました。

ベンチマーク結果が示す大きなパフォーマンスギャップ

軌跡分析が記憶依存の行動を明らかに

AIコーディングツール導入における実用的な示唆

👀 See Also

エージェントGRPO：プログラミング競技で全人間を初めて打ち負かしたAI

スタンフォード大学CS25トランスフォーマー講座、一般公開へ　ライブ配信も実施

ミストラルCEO、欧州がAIインフラで米国依存を避けるための猶予は2年と警告

Claude Codeの/buddyイースターエッグとユーザー機能リクエスト

ベンチマーク結果が示す大きなパフォーマンスギャップ

軌跡分析が記憶依存の行動を明らかに

AIコーディングツール導入における実用的な示唆

👀 See Also

エージェントGRPO：プログラミング競技で全人間を初めて打ち負かしたAI

スタンフォード大学CS25トランスフォーマー講座、一般公開へ ライブ配信も実施

ミストラルCEO、欧州がAIインフラで米国依存を避けるための猶予は2年と警告

Claude Codeの/buddyイースターエッグとユーザー機能リクエスト

スタンフォード大学CS25トランスフォーマー講座、一般公開へ　ライブ配信も実施