Opus 4.6 확장 사고 방식은 물리학 다이어그램 문제에서 더 낮은 성능을 보입니다

확장 사고 모드의 성능 문제
r/ClaudeAI의 한 사용자가 시각적 다이어그램 해석이 필요한 물리학 문제에 대해 Opus 4.6과 Gemini 3.1 Pro를 테스트한 결과를 보고했습니다. 테스트 결과, 확장 사고 모드를 사용할 때 Opus 4.6에서 특정 성능 저하가 나타났습니다.
테스트의 주요 발견점
- 테스트 범위: "문제의 상당 부분이 시나리오를 보여주는 시각적 다이어그램을 해석하는 것"인 5개의 물리학 문제
- 확장 사고 모드 사용 시 Opus 4.6: "다이어그램의 근본적인 오해로 인해" 5개 문제 모두 "완전히 틀림"
- Gemini 3.1 Pro: 5개 문제 모두 "완벽하게 해결"
- 확장 사고 모드 미사용 시 Opus 4.6: 문제를 성공적으로 해결했으며 "훨씬 더 빠르기도 했음"
사용자는 확장 사고가 일반적으로 성능을 향상시키지만, 이 특정 다이어그램 해석 사례에서는 일관된 실패를 초래했다는 점을 "정말 이상한 행동"이라고 설명했습니다.
📖 Read the full source: r/ClaudeAI
👀 See Also

클로드의 5인 이상 요구가 개인 사무실의 프라이버시 문제를 드러내다
Anthropic의 비즈니스 등급 개인정보 보호 조치는 최소 5인 이상을 요구하여, 개인 실무자들이 빈 자리에 대한 비용을 지불하거나 부적절한 개인정보 보호 조건의 소비자 플랜을 사용하도록 강요합니다. 이러한 격차는 단일 좌석 가격으로 기업급 개인정보 보호를 제공하는 Google Workspace 및 OpenAI 비즈니스 플랜과 대조됩니다.

개발자 관점에서 본 AI 불안과 'AI 정신병'
레딧 토론에서 AI 도구를 사용하는 개발자들 사이에 광범위한 불안이 드러났으며, 연령대별로 서로 다른 압박을 경험하고 있습니다: 35-45세는 지속적인 재창조 압박을 느끼고, 25-35세는 기술이 쓸모없어질까 봐 걱정하며, 25세 미만 개발자들은 AI에 익숙함에도 불구하고 번아웃 위험에 직면하고 있습니다.

AI 구독 가격 폭락: 기업 청구서가 10배로 늘어날 이유
OpenAI, Anthropic, Microsoft 같은 AI 연구소는 구독 좌석 하나당 손해를 보고 있습니다. 에이전트 작업 부하가 정액 요금제를 무너뜨렸고 — GitHub Copilot은 2026년 6월 1일부터 사용량 기반 과금으로 전환합니다. 보조금을 받은 가격으로 구축한 기업들은 가격 조정에 직면합니다.

Gemma 4 초기 신호: 로컬 에이전트 워크플로우에서는 과대 광고보다 배포 적합성이 중요하다
Gemma 4의 출시는 개인용 하드웨어와 엣지/모바일을 위한 공식 포지셔닝과 함께 다양한 하드웨어 계층에 걸친 배포를 강조하며, NVIDIA의 NVFP4 양자화가 GPQA에서 99.7%의 기준 성능 유지와 함께 4배 압축을 보여주고, Arena 순위에서 31B 조밀 모델이 약 27위에 위치하고 있습니다.