SWE-rebench 리더보드 2026년 2월: Claude Opus 4.6 65.3% 선두

SWE-rebench 2026년 2월 결과

SWE-rebench 리더보드가 2026년 2월 실행 결과로 업데이트되었으며, 57개의 새로운 GitHub PR 작업을 대상으로 진행되었습니다. 설정은 표준 SWE-bench 방법론을 따릅니다: 모델은 실제 PR 이슈를 읽고, 코드를 수정하며, 테스트를 실행하고, 전체 테스트 스위트를 통과시켜야 합니다. 작업은 이전 달에 생성된 PR로 제한됩니다.

주요 결과

Claude Opus 4.6이 65.3% 해결률로 여전히 정상을 유지하며, 강력한 pass@5(~70%)로 기준을 제시하고 있습니다
상위 계층은 매우 치열합니다: gpt-5.2-medium (64.4%), GLM-5 (62.8%), gpt-5.4-medium (62.8%) 모두 선두와 몇 포인트 차이 내에 있습니다
Gemini 3.1 Pro Preview (62.3%)와 DeepSeek-V3.2 (60.9%)가 밀집된 상위 6위를 완성합니다
오픈 웨이트/하이브리드 모델은 계속 향상되고 있습니다: Qwen3.5-397B (59.9%), Step-3.5-Flash (59.6%), Qwen3-Coder-Next (54.4%)는 개선된 장문 컨텍스트 활용과 확장성으로 격차를 좁히고 있습니다
MiniMax M2.5 (54.6%)는 경쟁력 있는 성능과 비용 효율적인 옵션으로 계속 두각을 나타내고 있습니다

전반적으로, 2월 결과는 여러 모델이 선두와 몇 포인트 차이 내에 있는 매우 경쟁적인 최전선을 보여줍니다.

📖 Read the full source: r/LocalLLaMA

SWE-rebench 리더보드 업데이트: 2026년 2월 결과, 치열한 경쟁 양상 보여

SWE-rebench 2026년 2월 결과

주요 결과

👀 See Also

오케스트레이터: 프로세스보다 의도가 중요해야 하는 이유

Kimi K2.6, 공격적인 슬라이딩 전략으로 코딩 챌린지에서 Claude, GPT-5.5, Gemini 제쳐

Claude Code v2.1.152: /code-review --fix, 플러그인 비활성화 도구, MessageDisplay 훅

클로드 코드는 푸시-투-톡 기능을 갖춘 음성 입력을 추가합니다.