클로드 오퍼스 4.1 SWE-Bench Pro 17.75% 기록, 암기 vs 추론 격차 부각

벤치마크 결과가 상당한 성능 격차를 보여줍니다

클로드 오퍼스 4.1은 SWE-Bench Verified에서 80% 이상을 달성했지만, SWE-Bench Pro의 비공개 데이터셋에서는 단 17.75%만 기록했습니다. 이 데이터셋은 GitHub에 한 번도 올라간 적 없는 18개의 독점 스타트업 코드베이스에서 가져온 276개의 작업으로 구성되어 있으며, GPL 라이선스 공개 저장소를 통한 데이터 오염을 제거하기 위해 특별히 설계되었습니다.

동일한 비공개 데이터셋에서 다른 모델들의 결과: GPT-5.2는 23.81%(리더보드 1위), 제미니 3 프로는 17.95%를 기록했습니다.

궤적 분석이 암기 행동을 드러냅니다

스케일 AI의 분석에 따르면 테스트 중에 모델들이 익숙한 저장소에서 문제 설명을 완전히 읽기 전에 수정할 올바른 파일 경로를 식별할 수 있었습니다. 이는 모델들이 문제를 추론하기보다는 기억을 통해 탐색하고 있었음을 나타냅니다.

SWE-Bench Verified에서의 80% 점수는 실제였지만, 대부분의 사람들이 가정했던 것과는 다른 능력을 측정한 것입니다. 즉, 새로운 코드에 대한 추론보다는 주로 훈련 데이터의 기억을 측정한 것입니다.

AI 코딩 도구 배치에 대한 실질적인 함의

개발자들이 워크플로우에서 AI 코딩 도구를 어디에 배치할지 결정할 때, 기억과 추론 사이의 구분은 헤드라인 벤치마크 수치보다 더 중요합니다. 오염된 벤치마크에서 잘 수행하는 모델들은 훈련 중에 보지 못한 진정으로 새로운 코드베이스에서 어려움을 겪을 수 있습니다.

SWE-Bench Pro는 GitHub나 훈련 데이터셋에 한 번도 공개된 적 없는 코드를 사용함으로써 이 오염 문제를 해결하기 위해 특별히 만들어졌습니다.

📖 전체 출처 읽기: r/ClaudeAI

클로드 오퍼스 4.1은 SWE-Bench Pro 비공개 데이터셋에서 17.75%의 점수를 기록하며, 암기 능력과 추론 능력 간의 격차를 부각시켰습니다.

벤치마크 결과가 상당한 성능 격차를 보여줍니다

궤적 분석이 암기 행동을 드러냅니다

AI 코딩 도구 배치에 대한 실질적인 함의

👀 See Also

Sakana AI, RSI 연구소 출범: 기반 모델을 활용한 재귀적 자기 개선

AI의 가격 위기: OpenAI와 Anthropic, $1 벌기 위해 $8~$14 지출

Claude Code v2.1.139：에이전트 뷰, /goal 명령어 및 MCP 주요 개선 사항 추가

코덱스 대화: AI 자동화에서 오픈클로의 후계자