Claude Opus 4.1は、SWE-Bench Proのプライベートデータセットにおいて17.75%のスコアを記録し、記憶力と推論力のギャップを浮き彫りにしました。

✍️ OpenClawRadar📅 公開日: March 9, 2026🔗 Source
Claude Opus 4.1は、SWE-Bench Proのプライベートデータセットにおいて17.75%のスコアを記録し、記憶力と推論力のギャップを浮き彫りにしました。
Ad

ベンチマーク結果が示す大きなパフォーマンスギャップ

Claude Opus 4.1はSWE-Bench Verifiedで80%以上を達成しましたが、SWE-Bench Proのプライベートデータセットではわずか17.75%のスコアでした。このデータセットには、GitHub上に一度も公開されたことのない18のプロプライエタリなスタートアップコードベースから抽出された276のタスクが含まれており、GPLライセンスの公開リポジトリを通じたデータ汚染を排除するために特別に設計されています。

同じプライベートデータセットにおける他のモデルの結果:GPT-5.2は23.81%(リーダーボードトップ)、Gemini 3 Proは17.95%を獲得しました。

軌跡分析が記憶依存の行動を明らかに

Scale AIの分析によると、テスト中にモデルは、馴染みのあるリポジトリでは問題の説明を完全に読む前に修正すべき正しいファイルパスを特定できていました。これは、問題を推論して解決するのではなく、記憶に基づいてナビゲートしていたことを示しています。

SWE-Bench Verifiedでの80%のスコアは実際のものでしたが、ほとんどの人が想定していた能力とは異なるものを測定していました。主に新しいコードについて推論するのではなく、トレーニングデータの記憶を測定していたのです。

AIコーディングツール導入における実用的な示唆

開発者がワークフローのどこにAIコーディングツールを導入するかを決定する際には、見出しのベンチマーク数値よりも、記憶と推論の区別の方が重要です。汚染されたベンチマークで良好なパフォーマンスを示すモデルでも、トレーニング中に見たことのない真に新しいコードベースでは苦戦する可能性があります。

SWE-Bench Proは、GitHubやトレーニングデータセットに一度も公開されたことのないコードを使用することで、この汚染問題に対処するために特別に作成されました。

📖 完全なソースを読む: r/ClaudeAI

Ad

👀 See Also

OpenClaw 2026.3.11リリースでは、ローカルファーストのOllamaセットアップ、統合されたOpenCodeキー、およびマルチモーダルメモリが追加されました。
News

OpenClaw 2026.3.11リリースでは、ローカルファーストのOllamaセットアップ、統合されたOpenCodeキー、およびマルチモーダルメモリが追加されました。

OpenClaw 2026.3.11では、ローカル専用またはハイブリッドモードによるファーストクラスのOllamaセットアップ、ZenとGoモデルのための統一されたOpenCodeキー管理、Gemini埋め込みを用いたマルチモーダル画像/音声インデックス化を導入します。

OpenClawRadar
Kimi K2.6 vs Claude Opus 4.7: Minetest Bounty Board Modを使った実機テスト
News

Kimi K2.6 vs Claude Opus 4.7: Minetest Bounty Board Modを使った実機テスト

ある開発者が、TypeScriptバックエンドとGoogle Sheetsログ機能を備えたMinetest/Luantiのバウンティボードmodの構築において、Kimi K2.6とClaude Opus 4.7をテストしました。Opusはスムーズに動作しましたが、Kimiは統合部分で失敗しました。

OpenClawRadar
Claude Artifacts APIの使用回数は、API課金ではなく、チャットの利用枠にカウントされます。
News

Claude Artifacts APIの使用回数は、API課金ではなく、チャットの利用枠にカウントされます。

ClaudeアーティファクトをClaude内で使用すると、通常のAPI呼び出しが行われますが、Anthropicによってインターセプトされ、ログイン済みセッションを通じて認証されるため、API課金ではなくプランのチャット枠にカウントされます。ユーザーはアーティファクトをテストし、Claude ConsoleでAPI使用量がゼロのままであることを確認することで、これを検証できます。

OpenClawRadar
AMD Ryzen AI NPUがLemonade 10.0とFastFlowLMでLinux LLMサポートを獲得
News

AMD Ryzen AI NPUがLemonade 10.0とFastFlowLMでLinux LLMサポートを獲得

AMD Ryzen AI NPUは現在、Linux 7.0カーネルまたはAMDXDNAドライバーのバックポートを必要とするFastFlowLMランタイムを搭載したLemonade 10.0サーバーを通じて、Linux上で大規模言語モデルを実行できるようになりました。

OpenClawRadar