오퍼스 4.7 추론 노력 벤치마크: 실제 작업에서 중간이 높음과 최대를 능가
Reddit 사용자 ktane이 오픈소스 GraphQL-go-tools 저장소의 실제 태스크 29개를 대상으로 Claude Code에서 Claude Opus 4.7을 다섯 가지 추론 노력 수준(low, medium, high, xhigh, max)으로 테스트했습니다. 결과: 중간 추론 노력이 테스트 통과율, 사람이 작성한 패치와의 의미적 동등성, 코드 리뷰 통과율, 그리고 종합적인 정교함/규율 점수에서 지속적으로 더 높은 설정보다 우수했습니다.
주요 결과
- 전체 태스크 통과율: Medium 28/29, Max 27/29, High 26/29, Xhigh 25/29, Low 23/29
- 동등한 패치: Medium 14/29, Max 13/29, High 12/29, Xhigh 11/29, Low 10/29
- 코드 리뷰 통과율: Medium 10/29, High 7/29, Max 8/29, Xhigh 4/29, Low 5/29
- 코드 리뷰 루브릭 평균: Medium 2.716, High 2.509, Xhigh 2.482, Max 2.431, Low 2.426
- 영향 위험(낮을수록 좋음): Low 0.155, Medium 0.189, High 0.206, Max 0.227, Xhigh 0.238
- 태스크당 비용: Low $2.50, Medium $3.15, High $5.01, Xhigh $6.51, Max $8.84
- 태스크당 소요 시간: Low 383.8s, Medium 450.7s, High 716.4s, Xhigh 803.8s, Max 996.9s
- 1달러당 동등 패스: Low 4.0, Medium 4.4, High 2.4, Xhigh 1.7, Max 1.5
저자는 Opus 4.7이 적응형 사고(adaptive thinking)를 사용한다고 지적합니다. 즉, 이미 태스크별로 추론 예산을 할당합니다. 따라서 노력 조절장치는 원시적인 지능을 추가하기보다는 이미 적응형인 정책에 편향을 주는 역할을 합니다. 특히 PR #1260에서는 high 및 xhigh 설정이 이전 PR의 커밋 해시를 찾는 데 추가 추론을 낭비하고 '필요한 작업 없음'이라고 결론을 내린 반면, medium 및 max는 제어 흐름을 올바르게 읽고 수정 사항을 생성했습니다.
이는 Codex의 GPT-5.5와 대조적입니다. GPT-5.5에서는 더 많은 추론이 품질을 향상시키는 직관적인 단조 곡선을 보였습니다. 태스크별 세부 분석이 포함된 전체 대화형 보고서는 stet.sh에서 확인할 수 있습니다.
📖 Read the full source: r/ClaudeAI
👀 See Also

로컬 vs 클라우드 모델: 하드 코드 생성에서 Qwen-3.6-27B, Gemma-4-31B, Claude Haiku, Codex-Spark 비교
한 사용자가 RTX 5080에서 로컬로 실행한 Qwen-3.6-27B(q4_k_m)와 API 기반 Gemma-4-31B, Claude Haiku 4.5, Codex-Spark를 복잡한 코드 작업에서 비교했습니다. 오직 Codex-Spark만이 완전한 코드를 생성했지만(가져오기 오류 발생), 나머지는 모두 부분적으로 실패했습니다. 비용: Gemma는 803k 입력 토큰에 $0.112를 사용했습니다.

아틀라시안, AI 훈련을 위한 기본 데이터 수집 기능 활성화
Atlassian이 AI 모델 훈련을 위해 제품 전반에 기본 데이터 수집을 활성화했다고 Hacker News에 312점과 75개의 댓글로 공유된 소스에서 밝혔습니다.

러스트 프로젝트 관점에서 본 AI: 기여자들의 실용적 인사이트
요약 문서는 Rust 기여자들의 AI 도구 사용에 대한 관점을 모아, 효과적인 AI 통합에는 신중한 엔지니어링이 필요하며, 코드베이스 탐색, 코드 리뷰 지원, 반정형 데이터 처리와 같은 구체적인 사용 사례를 강조합니다.

인지 부채: AI 출력이 이해를 앞지를 때
Reddit 게시물이 '인지적 부채' — AI 생성 출력과 팀의 이해 사이의 격차 — 를 논의하며, 창의적 통제는 실제로 출시한 것을 아는 것이라고 주장합니다. 해당 게시물 자체는 Claude의 도움으로 작성되어 아이러니를 자아냅니다.