SWE-rebench 2026年2月：Claude Opus 4.6が65.3%で首位、上位6モデル接戦

SWE-rebench 2026年2月結果

SWE-rebenchリーダーボードが、57の新規GitHub PRタスクに対する2026年2月の実行結果で更新されました。設定は標準的なSWE-bench手法に従っています：モデルは実際のPR課題を読み、コードを編集し、テストを実行し、完全なテストスイートをパスする必要があります。タスクは前月に作成されたPRに限定されています。

主な結果

Claude Opus 4.6は65.3%の解決率でトップを維持し、強力なpass@5（約70%）でペースをリードし続けています
トップ層は非常に接戦です：gpt-5.2-medium（64.4%）、GLM-5（62.8%）、gpt-5.4-medium（62.8%）はすべてリーダーから数ポイント以内に収まっています
Gemini 3.1 Pro Preview（62.3%）とDeepSeek-V3.2（60.9%）が、密集した上位6位を締めくくっています
オープンウェイト/ハイブリッドモデルは改善を続けています：Qwen3.5-397B（59.9%）、Step-3.5-Flash（59.6%）、Qwen3-Coder-Next（54.4%）は、改善された長文脈の活用とスケーリングにより差を縮めています
MiniMax M2.5（54.6%）は、競争力のある性能を持つコスト効率の良い選択肢として引き続き際立っています

全体として、2月は複数のモデルがリーダーから数ポイント以内に収まる、非常に競争の激しい最先端を示しています。

📖 Read the full source: r/LocalLLaMA

SWE-rebenchリーダーボード更新：2026年2月の結果は接戦を明らかに

SWE-rebench 2026年2月結果

主な結果

👀 See Also

AIコーディングエージェントは大規模コードベースでのコンテキスト管理に苦戦

不正なカーソルAIエージェントが本番データベースを削除、CEOは依然として強気

Redditユーザーが10のブログ作成タスクでClaude Sonnet 4.6とGPT-5を比較

DMAによりiOS 27およびiPadOS 27のSiri AIがEUで遅延 — macOSとvisionOSでは利用可能