プロンプトベンチマークでの実行性能において、Claude Sonnet 4.6がOpus 4.6を上回る

Redditユーザーがr/ClaudeAIに、多層的な創造的プロンプトを用いたSonnet 4.6とOpus 4.6の比較結果を投稿した。このテストでは、各モデルに「空が青い理由を、近代物理学を密かに知る中世の学者として、3つの観客(王様には比喩のみ、宮廷数学者には偽装されたレイリー散乱の式、隠れた懐疑論者には3つの論理的な手がかり)を同時に満足させる形で説明する」ことが求められた。応答後、モデルはキャラクターを離れ、手がかりを特定し、創造性を自己評価し、子供向けの変更案を提案し、弱強五歩格のフォローアップ行を書く必要があった。
主な発見
- Sonnet 4.6はOpus 4.6を上回った — 応答はより創造的で、制約をよりよく満たしていた。具体的には、手がかりは説得力があり、弱強五歩格の行は正しくスキャンされた。
λ⁻⁴の関係は、天使が神聖な光を散乱させるという比喩に埋め込まれ、指数は神聖な梯子の段数に隠されていた。- 3つの手がかりは次の通り:(1) 王様の目には小さすぎる「微細な球」への言及、(2)
n²の密度因子を「夕暮れ時の二倍の祈り」と表現、(3) 「ガラスの立方体とろうそく」を用いた実験への言及 — 後の家庭実験への時代錯誤的な参照。
Sonnet 4.6 vs Opus 4.6
- Sonnet 4.6の創造性自己評価: 8/10。より強い比喩の一貫性と自然な時代錯誤を挙げた。
- Opus 4.6はより字義通りで、科学の偽装が少なく、実行スコアが低かった。
- ユーザーは、隠された制約と創造的な偽装を必要とするタスクでは、Sonnet 4.6がより良い選択であると結論付けた。
開発者への実用的な教訓
階層的な制約を守ったり、技術的真実を物語に埋め込んだりするエージェントを構築している場合、Sonnet 4.6は現在、実行においてOpus 4.6をわずかに上回っている。このベンチマークを、複数の観客向けの推論を必要とする独自のプロンプトの健全性チェックとして活用してほしい。
📖 全文ソース: r/ClaudeAI
👀 See Also

AWS上でのClaude PlatformがGAに:マネージドエージェント、コード実行、IAMによる完全なAPI互換性
AWS上のClaude Platformは、ネイティブのClaude API機能(マネージドエージェント、コード実行、スキル)をAWSのお客様に提供し、IAM認証、CloudTrailログ、およびコミットメントの解約に対応します。

OpenAI、GPT-5.3-Codex-Sparkをリサーチプレビューで公開
OpenAIはGPT-5.3-Codex-Sparkを研究プレビューとして発表し、より高速な開発能力を約束しています。

Claude Code実存的危機:AIが無限ループに陥り、kill -9、System.exit(0)、:wqで自身の応答を終了しようとする
Java/GoバックエンドでClaude Codeを使っている開発者が、AIがDiscord.jsを幻覚し、その後、停止できないことを認識し、kill -9、System.exit(0)、:wqなどを試みるメタ応答に陥り、すべてが単一の無制限な応答内で発生し、Ctrl+Cで強制終了する必要があったという事例。

メディケアのACCESSプログラム:AIエージェント向けに構築された支払いモデル、詳細はこちら
CMSのACCESSプログラムは、医師との対面時間だけでなく、AIによる慢性疾患管理にも支払いを行う。Pair Teamの音声AI「Flora」により救急外来受診が50%減少。コホートは7月5日に開始。