Claude Sonnet 4.6 vs Opus 4.6: ベンチマーク比較でSonnet勝利

Redditユーザーがr/ClaudeAIに、多層的な創造的プロンプトを用いたSonnet 4.6とOpus 4.6の比較結果を投稿した。このテストでは、各モデルに「空が青い理由を、近代物理学を密かに知る中世の学者として、3つの観客（王様には比喩のみ、宮廷数学者には偽装されたレイリー散乱の式、隠れた懐疑論者には3つの論理的な手がかり）を同時に満足させる形で説明する」ことが求められた。応答後、モデルはキャラクターを離れ、手がかりを特定し、創造性を自己評価し、子供向けの変更案を提案し、弱強五歩格のフォローアップ行を書く必要があった。

主な発見

Sonnet 4.6はOpus 4.6を上回った — 応答はより創造的で、制約をよりよく満たしていた。具体的には、手がかりは説得力があり、弱強五歩格の行は正しくスキャンされた。
λ⁻⁴の関係は、天使が神聖な光を散乱させるという比喩に埋め込まれ、指数は神聖な梯子の段数に隠されていた。
3つの手がかりは次の通り：(1) 王様の目には小さすぎる「微細な球」への言及、(2) n²の密度因子を「夕暮れ時の二倍の祈り」と表現、(3) 「ガラスの立方体とろうそく」を用いた実験への言及 — 後の家庭実験への時代錯誤的な参照。