SWE-rebench 리더보드 업데이트: 2026년 2월 결과, 치열한 경쟁 양상 보여

✍️ OpenClawRadar📅 게시일: March 23, 2026🔗 Source
SWE-rebench 리더보드 업데이트: 2026년 2월 결과, 치열한 경쟁 양상 보여
Ad

SWE-rebench 2026년 2월 결과

SWE-rebench 리더보드가 2026년 2월 실행 결과로 업데이트되었으며, 57개의 새로운 GitHub PR 작업을 대상으로 진행되었습니다. 설정은 표준 SWE-bench 방법론을 따릅니다: 모델은 실제 PR 이슈를 읽고, 코드를 수정하며, 테스트를 실행하고, 전체 테스트 스위트를 통과시켜야 합니다. 작업은 이전 달에 생성된 PR로 제한됩니다.

주요 결과

  • Claude Opus 4.665.3% 해결률로 여전히 정상을 유지하며, 강력한 pass@5(~70%)로 기준을 제시하고 있습니다
  • 상위 계층은 매우 치열합니다: gpt-5.2-medium (64.4%), GLM-5 (62.8%), gpt-5.4-medium (62.8%) 모두 선두와 몇 포인트 차이 내에 있습니다
  • Gemini 3.1 Pro Preview (62.3%)DeepSeek-V3.2 (60.9%)가 밀집된 상위 6위를 완성합니다
  • 오픈 웨이트/하이브리드 모델은 계속 향상되고 있습니다: Qwen3.5-397B (59.9%), Step-3.5-Flash (59.6%), Qwen3-Coder-Next (54.4%)는 개선된 장문 컨텍스트 활용과 확장성으로 격차를 좁히고 있습니다
  • MiniMax M2.5 (54.6%)는 경쟁력 있는 성능과 비용 효율적인 옵션으로 계속 두각을 나타내고 있습니다

전반적으로, 2월 결과는 여러 모델이 선두와 몇 포인트 차이 내에 있는 매우 경쟁적인 최전선을 보여줍니다.

📖 Read the full source: r/LocalLLaMA

Ad

👀 See Also

Claude-Code v2.1.25 출시: 유효성 검사 오류 수정
News

Claude-Code v2.1.25 출시: 유효성 검사 오류 수정

Claude-Code v2.1.25는 Bedrock 및 Vertex에서 게이트웨이를 사용하는 사용자에게 영향을 미치는 베타 헤더 검증 문제를 해결하며, 특정 환경 변수 해결책을 제공합니다.

OpenClawRadar
MCP의 추상화 경계 및 서비스 통합 접근법에 대한 비판
News

MCP의 추상화 경계 및 서비스 통합 접근법에 대한 비판

레딧 토론에서는 MCP가 API 접근성, 효율적인 도구화, 도메인 지식을 한 층으로 묶어서 기본 API와 비교했을 때 제한된 인터페이스를 만든다고 비판합니다. 이 게시물은 Lattice를 예로 들며, 그들의 공개 API는 전체 GraphQL API를 가지고 있음에도 불구하고 HR 관리 워크플로우만 다루고 있다고 지적합니다.

OpenClawRadar
Qwen 3 8B는 어려운 과제에 대한 블라인드 동료 평가에서 더 큰 모델들을 능가합니다.
News

Qwen 3 8B는 어려운 과제에 대한 블라인드 동료 평가에서 더 큰 모델들을 능가합니다.

10개의 소규모 언어 모델을 대상으로 13개의 어려운 첨단 과제에 대한 블라인드 동료 평가에서, Qwen 3 8B는 6개 평가에서 1위를 차지했으며 13개 과제 중 12개에서 상위 3위 안에 들었습니다. 이는 파라미터 수가 최대 4배 많은 모델들을 능가하는 성과입니다. 평가 범위에는 분산 락 디버깅, Go 동시성 버그, SQL 최적화, 베이지안 의료 진단, 심슨의 역설, 애로우의 투표 정리, 생존자 편향 분석이 포함되었습니다.

OpenClawRadar
inclusionAI, Ling-2.6-1T 출시: 희소 어텐션과 빠른 사고를 갖춘 하이브리드 아키텍처의 조 단위 파라미터 모델
News

inclusionAI, Ling-2.6-1T 출시: 희소 어텐션과 빠른 사고를 갖춘 하이브리드 아키텍처의 조 단위 파라미터 모델

Ling-2.6-1T는 MLA와 Linear Attention을 결합한 새로운 오픈소스 1조 매개변수 모델로, 긴 컨텍스트 효율성을 위해 Contextual Process Redundancy Suppression을 사용하여 장황한 사고 체인을 줄입니다. AIME26, SWE-bench Verified, BFCL-V4, TAU2-Bench 및 IFBench에서 오픈소스 최고 성능을 달성했습니다.

OpenClawRadar