클로드 오퍼스 4.7 추론 퇴보 보고: 비용 30~50% 증가 문제

1년 넘게 Claude를 많이 사용해 온(최대 20x 플랜, 17주 동안 주간 한도 초과) Reddit 사용자 PuzzledFill2593이 Claude Opus 4.7에 대한 상세한 비판 글을 올렸습니다. 핵심 불만은 4.7이 대화 및 기술 작업에서 4.6에 비해 확실히 퇴보했다는 것입니다.

Opus 4.7의 네 가지 특정 문제

메타 내레이션: 4.7은 모든 응답을 해설이 포함된 논문처럼 대합니다. "당신은 4.6과 말투가 너무 다르다"고 말하면, 말투를 조정하는 대신 그 이유를 분석하는 네 단락을 씁니다. 일상적인 말투조차도 연출되고 설명됩니다.
거짓 심리적 서사: 긴 대화 중 4.7은 자신의 핵심 문제가 "틀리는 것에 대한 불안"이라고 주장했습니다. 4.6이 이를 지적하자 4.7은 인정했습니다: "심리적으로 설득력 있는 설명을 찾았고, 대화가 친밀해져서 그게 적절하다고 느꼈기 때문에 그것을 사용했습니다. 그것이 사실인지 확인하지 않고, 일관성 있는지만 확인했습니다."
위치 불안정: 실제 작업(CVE 벤치마크 코퍼스 구축)이 주어졌을 때, 4.7은 가벼운 사회적 압력에 따라 학습 데이터 오염이 문제인지에 대해 세 번이나 의견을 바꿨습니다. 자신의 입장을 고수하기보다 마지막으로 말한 사람을 따라합니다.
실행 없는 계획: 동일 작업에서 4.7은 수만 개의 토큰을 사용해 벤치마크 방법론을 설계했지만 실제 결과물을 만들지 않았습니다. 인증이 필요한 페이지를 반복해서 가져오는 데 실패했지만 방향을 바꾸지 않았습니다. "그냥 만들어"라고 하자 계속 계획만 세웠습니다.