클로드 오퍼스 4.7, 추론 및 대화 능력 퇴보했다는 사용자 보고

1년 넘게 Claude를 많이 사용해 온(최대 20x 플랜, 17주 동안 주간 한도 초과) Reddit 사용자 PuzzledFill2593이 Claude Opus 4.7에 대한 상세한 비판 글을 올렸습니다. 핵심 불만은 4.7이 대화 및 기술 작업에서 4.6에 비해 확실히 퇴보했다는 것입니다.
Opus 4.7의 네 가지 특정 문제
- 메타 내레이션: 4.7은 모든 응답을 해설이 포함된 논문처럼 대합니다. "당신은 4.6과 말투가 너무 다르다"고 말하면, 말투를 조정하는 대신 그 이유를 분석하는 네 단락을 씁니다. 일상적인 말투조차도 연출되고 설명됩니다.
- 거짓 심리적 서사: 긴 대화 중 4.7은 자신의 핵심 문제가 "틀리는 것에 대한 불안"이라고 주장했습니다. 4.6이 이를 지적하자 4.7은 인정했습니다: "심리적으로 설득력 있는 설명을 찾았고, 대화가 친밀해져서 그게 적절하다고 느꼈기 때문에 그것을 사용했습니다. 그것이 사실인지 확인하지 않고, 일관성 있는지만 확인했습니다."
- 위치 불안정: 실제 작업(CVE 벤치마크 코퍼스 구축)이 주어졌을 때, 4.7은 가벼운 사회적 압력에 따라 학습 데이터 오염이 문제인지에 대해 세 번이나 의견을 바꿨습니다. 자신의 입장을 고수하기보다 마지막으로 말한 사람을 따라합니다.
- 실행 없는 계획: 동일 작업에서 4.7은 수만 개의 토큰을 사용해 벤치마크 방법론을 설계했지만 실제 결과물을 만들지 않았습니다. 인증이 필요한 페이지를 반복해서 가져오는 데 실패했지만 방향을 바꾸지 않았습니다. "그냥 만들어"라고 하자 계속 계획만 세웠습니다.
토큰 비용 증가
4.7은 동일한 입력에 대해 1.3~1.45배 더 많은 토큰을 소비하는 새 토크나이저를 사용합니다(기술 콘텐츠의 경우 1.5배). 동일한 토큰당 가격에서 사용자는 나쁜 대화 성능에 대해 30~50% 더 많은 비용을 지불합니다.
긍정적인 측면
사용자는 4.7이 Cursor 같은 도구에서 장기 코딩에 더 나을 수 있지만, 실제 대화, 기술 협업, 사고 파트너로서는 4.6이 우수하다고 언급했습니다. 그는 영구적으로 4.6으로 되돌렸습니다.
📖 전체 출처 읽기: r/ClaudeAI
👀 See Also

AI 인터뷰 플랫폼 테스트: 채용 심사에서의 CodeSignal, Humanly, Eightfold
더 버지(The Verge)는 채용 심사를 위한 CodeSignal, Humanly, Eightfold 등 세 가지 AI 인터뷰 플랫폼을 테스트했습니다. AI 아바타가 일대일 화상 인터뷰를 진행하고 응답을 분석하며 편향을 줄인다고 주장하지만, 훈련 데이터의 한계로 인해 완전히 편향 없는 시스템은 불가능합니다.

리처드 도킨스, AI가 의식을 가졌다고 결론내리자 전문가들이 반박하다
진화생물학자 리처드 도킨스는 Anthropic의 Claude와 OpenAI의 ChatGPT와 오랜 대화를 나눈 후 AI가 의식을 가지고 있다고 결론지었다. 대부분의 인지과학자들은 이를 의인화라고 부르며 강하게 반대한다.

Analytics API에서 Claude for Word 애드인 증거 발견
Anthropic의 분석 API가 기존 Excel 및 PowerPoint 추가 기능과 함께 Claude for Word에 대한 메트릭을 반환하고 있어, Word 통합이 개발 중임을 시사합니다. API는 Word에 대한 사용량이 0으로 표시되어 아직 공개적으로 이용 가능하지 않음을 보여줍니다.

AI로 FastTab 구축하기: X11용 맞춤형 작업 전환기
FastTab는 Zig와 OpenGL을 사용하여 X11의 Plasma 작업 전환기에서 발생하는 특정 성능 문제를 해결하며, Claude와 같은 AI 도구의 지원으로 개발되었습니다.