클로드 오퍼스 4.1은 SWE-Bench Pro 비공개 데이터셋에서 17.75%의 점수를 기록하며, 암기 능력과 추론 능력 간의 격차를 부각시켰습니다.

벤치마크 결과가 상당한 성능 격차를 보여줍니다
클로드 오퍼스 4.1은 SWE-Bench Verified에서 80% 이상을 달성했지만, SWE-Bench Pro의 비공개 데이터셋에서는 단 17.75%만 기록했습니다. 이 데이터셋은 GitHub에 한 번도 올라간 적 없는 18개의 독점 스타트업 코드베이스에서 가져온 276개의 작업으로 구성되어 있으며, GPL 라이선스 공개 저장소를 통한 데이터 오염을 제거하기 위해 특별히 설계되었습니다.
동일한 비공개 데이터셋에서 다른 모델들의 결과: GPT-5.2는 23.81%(리더보드 1위), 제미니 3 프로는 17.95%를 기록했습니다.
궤적 분석이 암기 행동을 드러냅니다
스케일 AI의 분석에 따르면 테스트 중에 모델들이 익숙한 저장소에서 문제 설명을 완전히 읽기 전에 수정할 올바른 파일 경로를 식별할 수 있었습니다. 이는 모델들이 문제를 추론하기보다는 기억을 통해 탐색하고 있었음을 나타냅니다.
SWE-Bench Verified에서의 80% 점수는 실제였지만, 대부분의 사람들이 가정했던 것과는 다른 능력을 측정한 것입니다. 즉, 새로운 코드에 대한 추론보다는 주로 훈련 데이터의 기억을 측정한 것입니다.
AI 코딩 도구 배치에 대한 실질적인 함의
개발자들이 워크플로우에서 AI 코딩 도구를 어디에 배치할지 결정할 때, 기억과 추론 사이의 구분은 헤드라인 벤치마크 수치보다 더 중요합니다. 오염된 벤치마크에서 잘 수행하는 모델들은 훈련 중에 보지 못한 진정으로 새로운 코드베이스에서 어려움을 겪을 수 있습니다.
SWE-Bench Pro는 GitHub나 훈련 데이터셋에 한 번도 공개된 적 없는 코드를 사용함으로써 이 오염 문제를 해결하기 위해 특별히 만들어졌습니다.
📖 전체 출처 읽기: r/ClaudeAI
👀 See Also

얀 르쿤의 AMI, AI 월드 모델에 10억 달러 투자 유치, LLM 접근법에 도전장
얀 르쿤의 스타트업 AMI가 물리적 세계를 이해하는 AI 세계 모델을 개발하기 위해 10억 달러 이상을 조달했으며, LLM만으로는 인간 수준의 지능에 도달할 수 없다고 주장했습니다. 이 회사는 제조, 생물의학, 로봇공학 분야에 지속적 메모리, 추론 및 계획 능력을 갖춘 시스템을 구축할 것입니다.

클로드 프로 사용자, 단일 프롬프트에 5시간 사용 시간 소진, 출력 없음
Claude Pro 사용자가 단일 프롬프트로 전체 5시간 사용 시간을 소진했으며, 계획 텍스트만 반환하고 결과물은 없었다고 보고합니다. 이 사건은 내부 추론 중 토큰 소비와 보호 장치 부족 문제를 강조합니다.

스트라이프의 미니언: 원샷 엔드투엔드 코딩 에이전트로 개발자 생산성 향상하기
Stripe Minions는 Stripe 생태계 내에서 복잡한 작업을 자동화하여 개발자 생산성을 향상시키도록 설계된 원샷, 엔드투엔드 코딩 에이전트입니다.

OpenAI가 캘리포니아에서 나이 확인 옹호 단체에 비밀리에 자금을 지원했다
OpenAI는 캘리포니아의 AI 연령 확인 요구 사항을 추진하는 단체인 Parents and Kids Safe AI Coalition에 비밀리에 자금을 지원했으며, 다른 옹호 단체들로부터 자사의 관여를 숨겼습니다. 회사는 Parents and Kids Safe AI Act 법안을 지원하기 위해 1천만 달러를 약속했습니다.