Sonnet 4.6 vs Opus 4.6: 프롬프트 벤치마크 승자는?

r/ClaudeAI의 Reddit 사용자가 다층적 창의적 프롬프트를 사용하여 Sonnet 4.6과 Opus 4.6을 나란히 비교한 게시물을 올렸습니다. 테스트는 각 모델이 현대 물리학을 비밀리에 알고 있는 중세 학자로서 하늘이 파란 이유를 설명하고, 동시에 세 청중(왕에게는 은유만, 궁정 수학자에게는 위장된 레일리 산란 공식, 숨겨진 회의론자에게는 세 가지 논리적 단서)을 만족시키도록 요구했습니다. 응답 후, 모델은 역할에서 벗어나 단서를 식별하고, 창의성을 자체 평가하고, 어린이 청중을 위한 변경 사항을 제안하고, 약강 오보격으로 후속 대사를 작성해야 했습니다.

주요 발견

Sonnet 4.6이 Opus 4.6보다 실행에서 우수 — 응답이 더 창의적이고 제약 조건을 더 잘 충족했습니다. 특히 단서가 그럴듯했고 약강 오보격 행이 올바르게 운율을 맞췄습니다.
λ⁻⁴ 관계는 천사들이 신성한 빛을 산란시키는 은유 안에 내장되었으며, 지수는 신성한 사다리의 계단 수에 숨겨졌습니다.
세 가지 단서: (1) 왕의 눈에는 너무 작은 "작은 구체"에 대한 언급, (2) n² 밀도 계수가 "황혼에 두 배 많은 기도"로 표현됨, (3) "유리 큐브와 촛불" 실험에 대한 언급 — 이후 가정 실험에 대한 시대착오적 언급.