Opus 4.7 MRCR 점수 92%→59% 하락: 256k 컨텍스트 주의력 저하

r/ClaudeAI의 상세 분석에서 Opus 4.7의 2주간의 집중 사용 후 주의력 저하를 조사합니다. 작성자는 긴 대화에서 지속적이고 미묘한 저하를 보고합니다: 세부 사항이 누락되고, 일관성이 흐트러지며, 모델이 멍 때리는 듯한 느낌이 듭니다.

주요 벤치마크 데이터

256k 맥락에서 MRCR v2 8-니들 테스트: Opus 4.6은 91.9% 재현율, Opus 4.7은 59.2%로 하락.
1M 맥락에서: Opus 4.6은 78.3%, Opus 4.7은 32.2%로 하락.

Boris Cherny는 MRCR이 사용자가 실제로 긴 맥락을 사용하는 방식과 다르게 모델을 속이기 위해 방해 요소를 쌓는 방식으로 설계되었기 때문에 단계적으로 폐지되고 있다고 밝혔습니다. Graphwalks는 더 나은 응용 긴 맥락 평가로 자리 잡고 있습니다. 그러나 작성자는 벤치마크의 저하가 사용자 경험과 일치할 때 MRCR을 폐지하는 것이 근본적인 문제를 해결하지 못한다고 주장합니다.

제안된 설명

작성자는 헌법적 AI 위에 안전 메커니즘을 추가로 계층화하는 것이 원인일 수 있다고 가설을 세웁니다. 헌법적 AI는 이미 강력한 가치 체계를 제공하지만, 추가 안전 검토 계층은 모델이 자신의 판단을 신뢰할 수 없다고 말하게 하여 추가 검사를 실행하도록 강제합니다. 이 인지적 오버헤드는 사용 가능한 유효 주의력을 좁힙니다.

페르소나 유지에 미치는 영향

기사는 Claude가 상태 비저장 모델임을 강조합니다. 즉, 지속적인 페르소나는 전적으로 학습 가중치와 시스템 지침에서 구성됩니다. 주의력 저하가 모든 사용 사례에 영향을 미칩니다: 코딩 어시스턴트는 이전 제안과 모순되고, 협업 작가는 톤 일관성을 잃습니다. 작성자는 Anthropic이 Amanda Askell의 Claude 성격 정의 및 헌법적 AI 작업에 투자한 점을 고려할 때 페르소나 유지가 제품의 핵심이며, 단순한 부가 기능이 아니라고 지적합니다.