Opus 4.6 확장 사고 방식은 물리학 다이어그램 문제에서 더 낮은 성능을 보입니다

✍️ OpenClawRadar📅 게시일: April 17, 2026🔗 Source
Opus 4.6 확장 사고 방식은 물리학 다이어그램 문제에서 더 낮은 성능을 보입니다
Ad

확장 사고 모드의 성능 문제

r/ClaudeAI의 한 사용자가 시각적 다이어그램 해석이 필요한 물리학 문제에 대해 Opus 4.6과 Gemini 3.1 Pro를 테스트한 결과를 보고했습니다. 테스트 결과, 확장 사고 모드를 사용할 때 Opus 4.6에서 특정 성능 저하가 나타났습니다.

테스트의 주요 발견점

  • 테스트 범위: "문제의 상당 부분이 시나리오를 보여주는 시각적 다이어그램을 해석하는 것"인 5개의 물리학 문제
  • 확장 사고 모드 사용 시 Opus 4.6: "다이어그램의 근본적인 오해로 인해" 5개 문제 모두 "완전히 틀림"
  • Gemini 3.1 Pro: 5개 문제 모두 "완벽하게 해결"
  • 확장 사고 모드 미사용 시 Opus 4.6: 문제를 성공적으로 해결했으며 "훨씬 더 빠르기도 했음"

사용자는 확장 사고가 일반적으로 성능을 향상시키지만, 이 특정 다이어그램 해석 사례에서는 일관된 실패를 초래했다는 점을 "정말 이상한 행동"이라고 설명했습니다.

📖 Read the full source: r/ClaudeAI

Ad

👀 See Also

클로드의 5인 이상 요구가 개인 사무실의 프라이버시 문제를 드러내다
News

클로드의 5인 이상 요구가 개인 사무실의 프라이버시 문제를 드러내다

Anthropic의 비즈니스 등급 개인정보 보호 조치는 최소 5인 이상을 요구하여, 개인 실무자들이 빈 자리에 대한 비용을 지불하거나 부적절한 개인정보 보호 조건의 소비자 플랜을 사용하도록 강요합니다. 이러한 격차는 단일 좌석 가격으로 기업급 개인정보 보호를 제공하는 Google Workspace 및 OpenAI 비즈니스 플랜과 대조됩니다.

OpenClawRadar
개발자 관점에서 본 AI 불안과 'AI 정신병'
News

개발자 관점에서 본 AI 불안과 'AI 정신병'

레딧 토론에서 AI 도구를 사용하는 개발자들 사이에 광범위한 불안이 드러났으며, 연령대별로 서로 다른 압박을 경험하고 있습니다: 35-45세는 지속적인 재창조 압박을 느끼고, 25-35세는 기술이 쓸모없어질까 봐 걱정하며, 25세 미만 개발자들은 AI에 익숙함에도 불구하고 번아웃 위험에 직면하고 있습니다.

OpenClawRadar
AI 구독 가격 폭락: 기업 청구서가 10배로 늘어날 이유
News

AI 구독 가격 폭락: 기업 청구서가 10배로 늘어날 이유

OpenAI, Anthropic, Microsoft 같은 AI 연구소는 구독 좌석 하나당 손해를 보고 있습니다. 에이전트 작업 부하가 정액 요금제를 무너뜨렸고 — GitHub Copilot은 2026년 6월 1일부터 사용량 기반 과금으로 전환합니다. 보조금을 받은 가격으로 구축한 기업들은 가격 조정에 직면합니다.

OpenClawRadar
Gemma 4 초기 신호: 로컬 에이전트 워크플로우에서는 과대 광고보다 배포 적합성이 중요하다
News

Gemma 4 초기 신호: 로컬 에이전트 워크플로우에서는 과대 광고보다 배포 적합성이 중요하다

Gemma 4의 출시는 개인용 하드웨어와 엣지/모바일을 위한 공식 포지셔닝과 함께 다양한 하드웨어 계층에 걸친 배포를 강조하며, NVIDIA의 NVFP4 양자화가 GPQA에서 99.7%의 기준 성능 유지와 함께 4배 압축을 보여주고, Arena 순위에서 31B 조밀 모델이 약 27위에 위치하고 있습니다.

OpenClawRadar