클로드 소네 4.6, 프롬프트 벤치마크 실행에서 오푸스 4.6을 능가

r/ClaudeAI의 Reddit 사용자가 다층적 창의적 프롬프트를 사용하여 Sonnet 4.6과 Opus 4.6을 나란히 비교한 게시물을 올렸습니다. 테스트는 각 모델이 현대 물리학을 비밀리에 알고 있는 중세 학자로서 하늘이 파란 이유를 설명하고, 동시에 세 청중(왕에게는 은유만, 궁정 수학자에게는 위장된 레일리 산란 공식, 숨겨진 회의론자에게는 세 가지 논리적 단서)을 만족시키도록 요구했습니다. 응답 후, 모델은 역할에서 벗어나 단서를 식별하고, 창의성을 자체 평가하고, 어린이 청중을 위한 변경 사항을 제안하고, 약강 오보격으로 후속 대사를 작성해야 했습니다.
주요 발견
- Sonnet 4.6이 Opus 4.6보다 실행에서 우수 — 응답이 더 창의적이고 제약 조건을 더 잘 충족했습니다. 특히 단서가 그럴듯했고 약강 오보격 행이 올바르게 운율을 맞췄습니다.
λ⁻⁴관계는 천사들이 신성한 빛을 산란시키는 은유 안에 내장되었으며, 지수는 신성한 사다리의 계단 수에 숨겨졌습니다.- 세 가지 단서: (1) 왕의 눈에는 너무 작은 "작은 구체"에 대한 언급, (2)
n²밀도 계수가 "황혼에 두 배 많은 기도"로 표현됨, (3) "유리 큐브와 촛불" 실험에 대한 언급 — 이후 가정 실험에 대한 시대착오적 언급.
Sonnet 4.6 vs Opus 4.6
- Sonnet 4.6 창의성 자체 평가: 8/10. 더 강력한 은유 응집력과 자연스러운 시대착오를 언급했습니다.
- Opus 4.6은 더 직설적이었고 과학을 덜 위장하여 실행 점수가 낮았습니다.
- 사용자는 숨겨진 제약 조건과 창의적 위장이 필요한 작업에는 Sonnet 4.6이 더 나은 선택이라고 결론지었습니다.
개발자를 위한 실용적 시사점
다층적 제약 조건을 준수하거나 기술적 진실을 서사에 내장해야 하는 에이전트를 구축 중이라면, Sonnet 4.6이 현재 Opus 4.6보다 실행에서 우위를 점합니다. 이 벤치마크를 다중 청중 추론이 필요한 자체 프롬프트의 건전성 검사로 사용하십시오.
📖 Read the full source: r/ClaudeAI
👀 See Also

클로드 프로 사용자, 단일 프롬프트에 5시간 사용 시간 소진, 출력 없음
Claude Pro 사용자가 단일 프롬프트로 전체 5시간 사용 시간을 소진했으며, 계획 텍스트만 반환하고 결과물은 없었다고 보고합니다. 이 사건은 내부 추론 중 토큰 소비와 보호 장치 부족 문제를 강조합니다.

클로드 오푸스 4.7은 고해상도 이미지 지원, 작업 예산 기능을 추가하고 확장 사고 기능을 제거했습니다.
Claude Opus 4.7은 2576px/3.75MP까지의 고해상도 이미지 지원, 에이전트 루프에서 토큰 사용량을 제어하는 새로운 작업 예산 기능을 도입하고, 확장 사고 예산을 제거하여 적응형 사고로 대체합니다.

AI 에이전트 일관성 연구: 주요 결과와 실용적 시사점
Claude, GPT-4o, Llama 모델을 대상으로 한 3,000건의 실험 연구에 따르면, 일관된 에이전트는 80~92%의 정확도를 보인 반면, 일관되지 않은 에이전트는 25~60%로 떨어졌으며, 69%의 차이는 첫 번째 도구 호출 시 발생했습니다.

Infomaniak, 다수의 의결권을 재단에 이전하여 스위스 클라우드의 독립성 확보
Infomaniak이 스위스 공익 재단에 의결권 과반을 이전하여 장기적 독립성을 확보했습니다. 재단 승인 없이는 인수가 불가능합니다.