Opus 4.7의 주의력 저하: 256k 컨텍스트에서 MRCR 점수 92%에서 59%로 하락

✍️ OpenClawRadar📅 게시일: May 13, 2026🔗 Source
Ad

r/ClaudeAI의 상세 분석에서 Opus 4.7의 2주간의 집중 사용 후 주의력 저하를 조사합니다. 작성자는 긴 대화에서 지속적이고 미묘한 저하를 보고합니다: 세부 사항이 누락되고, 일관성이 흐트러지며, 모델이 멍 때리는 듯한 느낌이 듭니다.

주요 벤치마크 데이터

  • 256k 맥락에서 MRCR v2 8-니들 테스트: Opus 4.6은 91.9% 재현율, Opus 4.7은 59.2%로 하락.
  • 1M 맥락에서: Opus 4.6은 78.3%, Opus 4.7은 32.2%로 하락.

Boris Cherny는 MRCR이 사용자가 실제로 긴 맥락을 사용하는 방식과 다르게 모델을 속이기 위해 방해 요소를 쌓는 방식으로 설계되었기 때문에 단계적으로 폐지되고 있다고 밝혔습니다. Graphwalks는 더 나은 응용 긴 맥락 평가로 자리 잡고 있습니다. 그러나 작성자는 벤치마크의 저하가 사용자 경험과 일치할 때 MRCR을 폐지하는 것이 근본적인 문제를 해결하지 못한다고 주장합니다.

제안된 설명

작성자는 헌법적 AI 위에 안전 메커니즘을 추가로 계층화하는 것이 원인일 수 있다고 가설을 세웁니다. 헌법적 AI는 이미 강력한 가치 체계를 제공하지만, 추가 안전 검토 계층은 모델이 자신의 판단을 신뢰할 수 없다고 말하게 하여 추가 검사를 실행하도록 강제합니다. 이 인지적 오버헤드는 사용 가능한 유효 주의력을 좁힙니다.

페르소나 유지에 미치는 영향

기사는 Claude가 상태 비저장 모델임을 강조합니다. 즉, 지속적인 페르소나는 전적으로 학습 가중치와 시스템 지침에서 구성됩니다. 주의력 저하가 모든 사용 사례에 영향을 미칩니다: 코딩 어시스턴트는 이전 제안과 모순되고, 협업 작가는 톤 일관성을 잃습니다. 작성자는 Anthropic이 Amanda Askell의 Claude 성격 정의 및 헌법적 AI 작업에 투자한 점을 고려할 때 페르소나 유지가 제품의 핵심이며, 단순한 부가 기능이 아니라고 지적합니다.

구체적 예시

순수 학술 사용 사례에서 작성자는 Opus 4.7에 역사/철학 과정을 위한 24페이지 요약을 보냈습니다. 모델이 문서를 읽기 시작했지만 중간에... (출처가 끊김, 성능 문제를 암시).

📖 전체 출처 읽기: r/ClaudeAI

Ad

👀 See Also

Harmonic-9B: AI 에이전트를 위한 2단계 Qwen3.5-9B 미세 조정
News

Harmonic-9B: AI 에이전트를 위한 2단계 Qwen3.5-9B 미세 조정

개발자 DJLougen이 두 단계 학습 접근법으로 에이전트 사용에 최적화된 Qwen3.5-9B 파인튜닝 모델인 Harmonic-9B를 공개했습니다. 1단계(심층 추론)는 완료되었으며, 2단계(경량 도구 호출)는 아직 학습 중입니다. GGUF 양자화 버전은 이미 사용 가능합니다.

OpenClawRadar
정규식에 대해 Claude에게 묻다가 컴파일러 설계에 빠져 늦게까지 작업하게 된 이야기
News

정규식에 대해 Claude에게 묻다가 컴파일러 설계에 빠져 늦게까지 작업하게 된 이야기

레딧 사용자가 Claude에게 정규 표현식을 설명해 달라고 했다가 45분 동안 파서, 컴파일러 설계, 언어 이론에 관한 대화를 나누며 자신의 커리어에 의문을 품게 되었다.

OpenClawRadar
MCP의 추상화 경계 및 서비스 통합 접근법에 대한 비판
News

MCP의 추상화 경계 및 서비스 통합 접근법에 대한 비판

레딧 토론에서는 MCP가 API 접근성, 효율적인 도구화, 도메인 지식을 한 층으로 묶어서 기본 API와 비교했을 때 제한된 인터페이스를 만든다고 비판합니다. 이 게시물은 Lattice를 예로 들며, 그들의 공개 API는 전체 GraphQL API를 가지고 있음에도 불구하고 HR 관리 워크플로우만 다루고 있다고 지적합니다.

OpenClawRadar
Anthropic, 클로드 제한을 늘리고 SpaceX 컴퓨팅 용량 추가
News

Anthropic, 클로드 제한을 늘리고 SpaceX 컴퓨팅 용량 추가

Anthropic이 Claude 사용 한도를 늘리고 SpaceX와 컴퓨팅 계약을 체결했습니다. Reddit 토론에서는 이것이 단순한 인프라 확장인지, 아니면 Claude를 에이전트 작업에 더 적합한 플랫폼으로 만들기 위한 전략적 움직임인지 논의하고 있습니다.

OpenClawRadar