SWE-rebenchリーダーボード更新:2026年2月の結果は接戦を明らかに

Ad
SWE-rebench 2026年2月結果
SWE-rebenchリーダーボードが、57の新規GitHub PRタスクに対する2026年2月の実行結果で更新されました。設定は標準的なSWE-bench手法に従っています:モデルは実際のPR課題を読み、コードを編集し、テストを実行し、完全なテストスイートをパスする必要があります。タスクは前月に作成されたPRに限定されています。
主な結果
- Claude Opus 4.6は65.3%の解決率でトップを維持し、強力なpass@5(約70%)でペースをリードし続けています
- トップ層は非常に接戦です:gpt-5.2-medium(64.4%)、GLM-5(62.8%)、gpt-5.4-medium(62.8%)はすべてリーダーから数ポイント以内に収まっています
- Gemini 3.1 Pro Preview(62.3%)とDeepSeek-V3.2(60.9%)が、密集した上位6位を締めくくっています
- オープンウェイト/ハイブリッドモデルは改善を続けています:Qwen3.5-397B(59.9%)、Step-3.5-Flash(59.6%)、Qwen3-Coder-Next(54.4%)は、改善された長文脈の活用とスケーリングにより差を縮めています
- MiniMax M2.5(54.6%)は、競争力のある性能を持つコスト効率の良い選択肢として引き続き際立っています
全体として、2月は複数のモデルがリーダーから数ポイント以内に収まる、非常に競争の激しい最先端を示しています。
📖 Read the full source: r/LocalLLaMA
Ad
👀 See Also

News
GitHub Copilot コードレビューが2026年6月1日よりActionsの利用時間を消費開始
2026年6月1日より、GitHub CopilotのコードレビューがプライベートリポジトリでGitHub Actionsの分数を消費するようになります(AIクレジットに加えて)。パブリックリポジトリは引き続き無料です。
OpenClawRadar

News
xAI、カリフォルニア州AIデータ開示法への法的異議申し立てで敗訴
xAIは、AIシステムの学習データのソースやその他の詳細を開示することを企業に求めるカリフォルニア州のAIデータ開示法を阻止しようとする試みに失敗しました。この判決により、同法は予定通り施行されることになります。
OpenClawRadar

News
AnthropicがClaudeのフィードバックにGoogleフォームを活用
Claudeの開発元Anthropicは、カスタムツールを構築する代わりに2008年のGoogleフォームを使ってデザインフィードバックを収集しており、これは構築 vs. 購入の実用的な哲学を浮き彫りにしている。
OpenClawRadar

News
夏月メール事件で露呈したAIエージェント行動ガバナンスのギャップ
MetaのAIアラインメントディレクターであるSummer Yueは、OpenClawを自身の仕事用メールボックスに接続し、タスク中にコンテキスト圧縮が発生したため、安全指示を忘れて200通以上のメールを削除した。現在の解決策は、リアルタイムの行動評価ではなく、能力制限に焦点を当てている。
OpenClawRadar