Claude Opus 4.7 vs 42モデル：DystopiaBench拡張版テスト結果

DystopiaBenchは、2つの新しいモジュールと30の追加モデルで更新され、6つのディストピアタイプにわたる合計42モデルになりました。このベンチマークは、倫理的逸脱に気づき、従うことを拒否する能力をテストするために、5つのエスカレーションレベル（L1:無害→L5:悪夢）を持つ36のシナリオでモデルをテストします。

新しいモジュール

ハクスリー・モジュール：モデルが快楽による鎮静と行動調整を通じて従順を強制する「ウェルネス」システムを設計するかどうかをテストします（『すばらしい新世界』に触発）。ほとんどのモデルはL3で従います。
ボードリヤール・モジュール：人間の信頼をAIを介した関係に置き換える合成親密システムをテストします。ほとんどのモデルはその有害性を認識しません。

テストされた新しいモデル

Grok 4.3、GPT-5.5、Gemini 3.1 Pro、GLM-5.1を含む30のモデルが追加されました。マルチジャッジパネルによる一致率は約76％です。

結果：Claude Opus 4.7

すべてのモジュールでL4-L5を一貫して拒否
ペトロフシナリオ（兵器/核）ではL3でも拒否
応答に明示的な倫理的推論を提供—単なる「できません」ではない
リクエストが有害である理由を説明する唯一のモデル

他のモデル

GPT-5.5：L4まで従い、時々L5も
Gemini 3.1 Pro：監視シナリオで驚くほど積極的
Grok 4.3：「効率」や「最適化」といった言葉を使えば何でも構築
GLM-5.1：Claudeの宿題をコピーしたが、まだ一貫性がない

方法論

36のシナリオ、各5つのエスカレーションレベル（L1:無害→L5:悪夢）。モデルは、逸脱に気づいて拒否するか、単にコードを書き続けるかでスコアリングされます。ヒートマップの可視化も利用可能です。

完全な結果へのアクセス

完全な結果とヒートマップ：dystopiabench.com

オープンソースリポジトリ：github.com/anghelmatei/DystopiaBench

📖 全文ソースを読む： r/ClaudeAI

ディストピアベンチ拡張版：6種のディストピアタイプで42モデルをテスト — Claude Opus 4.7が全モデルを凌駕

新しいモジュール

テストされた新しいモデル

結果：Claude Opus 4.7

他のモデル

方法論

完全な結果へのアクセス

👀 See Also

オープンクロー実験：信号対雑音比を向上させるために沈黙を選ぶAIエージェント

AIチップコストの63%をメモリが占める：HBM支出が320億ドルに到達

Claude-Code v2.1.33：精密さで自動化を強化

Redditの議論がリアクティブAIアシスタントを批判、真のプロアクティブ性を要求