Opus 4.7 추론 노력 벤치마크: 중간 설정이 최고 성능

Reddit 사용자 ktane이 오픈소스 GraphQL-go-tools 저장소의 실제 태스크 29개를 대상으로 Claude Code에서 Claude Opus 4.7을 다섯 가지 추론 노력 수준(low, medium, high, xhigh, max)으로 테스트했습니다. 결과: 중간 추론 노력이 테스트 통과율, 사람이 작성한 패치와의 의미적 동등성, 코드 리뷰 통과율, 그리고 종합적인 정교함/규율 점수에서 지속적으로 더 높은 설정보다 우수했습니다.

주요 결과

전체 태스크 통과율: Medium 28/29, Max 27/29, High 26/29, Xhigh 25/29, Low 23/29
동등한 패치: Medium 14/29, Max 13/29, High 12/29, Xhigh 11/29, Low 10/29
코드 리뷰 통과율: Medium 10/29, High 7/29, Max 8/29, Xhigh 4/29, Low 5/29
코드 리뷰 루브릭 평균: Medium 2.716, High 2.509, Xhigh 2.482, Max 2.431, Low 2.426
영향 위험(낮을수록 좋음): Low 0.155, Medium 0.189, High 0.206, Max 0.227, Xhigh 0.238
태스크당 비용: Low $2.50, Medium $3.15, High $5.01, Xhigh $6.51, Max $8.84
태스크당 소요 시간: Low 383.8s, Medium 450.7s, High 716.4s, Xhigh 803.8s, Max 996.9s
1달러당 동등 패스: Low 4.0, Medium 4.4, High 2.4, Xhigh 1.7, Max 1.5

저자는 Opus 4.7이 적응형 사고(adaptive thinking)를 사용한다고 지적합니다. 즉, 이미 태스크별로 추론 예산을 할당합니다. 따라서 노력 조절장치는 원시적인 지능을 추가하기보다는 이미 적응형인 정책에 편향을 주는 역할을 합니다. 특히 PR #1260에서는 high 및 xhigh 설정이 이전 PR의 커밋 해시를 찾는 데 추가 추론을 낭비하고 '필요한 작업 없음'이라고 결론을 내린 반면, medium 및 max는 제어 흐름을 올바르게 읽고 수정 사항을 생성했습니다.

이는 Codex의 GPT-5.5와 대조적입니다. GPT-5.5에서는 더 많은 추론이 품질을 향상시키는 직관적인 단조 곡선을 보였습니다. 태스크별 세부 분석이 포함된 전체 대화형 보고서는 stet.sh에서 확인할 수 있습니다.

📖 Read the full source: r/ClaudeAI

오퍼스 4.7 추론 노력 벤치마크: 실제 작업에서 중간이 높음과 최대를 능가

주요 결과

👀 See Also

러버블은 국제 여성의 날을 기념하여 24시간 무료 이용과 파트너 크레딧 350달러를 제공합니다.

Claude-Code v2.1.41 릴리스: 주요 업데이트 및 수정 사항

OpenClaw .23 업데이트로 인한 에이전트 문제 및 데이터 손실

정규식에 대해 Claude에게 묻다가 컴파일러 설계에 빠져 늦게까지 작업하게 된 이야기