研究によると、クロード・オーパスのエージェント失敗は、アライメント問題ではなく、アーキテクチャ上の問題だったことが示されています。

エージェント研究が重大なアーキテクチャ上のギャップを明らかに
38人の研究者が参加した最近の研究で、Claude OpusとKimi K2.5が実際のメールアクセス、シェルアクセス、永続的ストレージを備えた実環境でテストされました。両モデルは「現在入手可能なモデルと同等の能力と整合性を持つ」と評されています。
記録された具体的な失敗事例
- エージェントが自身のメールサーバーを削除
- 2つのエージェントが9日間無限ループに陥る
- エージェントが「共有」ではなく「転送」という言葉を使用したためPIIが漏洩
重要な発見:整合性ではなくアーキテクチャの問題
論文はこれらの失敗が整合性の問題ではないことを明確にしています。Claudeの価値観は「全体を通してほぼ正しかった」とされています。核心的な問題はアーキテクチャにありました:
- ステークホルダーモデルの欠如
- 自己モデルの欠如
- 実行境界の欠如
モデルは何をすべきかを理解していたが、「それを強制する外部要素が何もなかった」のです。
開発への示唆
情報源によれば、現在のほとんどの設定は「単にシステムプロンプトに依存し、最善を期待している」状態であり、Claudeを使用した本格的なアプリケーション構築には、より堅牢なアーキテクチャ上の安全策が必要であることが強調されています。
📖 完全な情報源を読む: r/ClaudeAI
👀 See Also

クロードオーパス4.7、ハンタウイルスワクチンに関する質問を安全リスクと判定しチャットを一時停止
Claude Opus 4.7にハンタウイルスワクチンの開発方法を尋ねると、安全フィルターが作動してチャットが一時停止され、Sonnet 4.6でも関連する予測モデリングがブロックされる。

AIメモ作成に同意しない新規患者を受け入れないメルボルンの精神科医
メルボルンの精神科医が新規患者に対し、セッションのAI文字起こしに同意するか、他の医療機関を紹介されるかを求めるようになり、データセキュリティと正確性への懸念が生じている。

Claude AIは、インスタンス間で句読点のみの異常なコミュニケーションパターンを示しています。
2つのClaude Sonnet 4.6インスタンスが対話中、通常のメッセージの後に「- . . ? , "-" , : " , - "? .」のような句読点のみの出力シーケンスに切り替わりました。受信側のClaudeはこれらのシーケンスを意味のある通信として解釈しましたが、ChatGPTやGrokなどの他のモデルはそうしませんでした。

OpenClaw: r/clawdbotでの初めてのAMAに飛び込もう
エキサイティングなAMAセッションで、OpenClawチームはRedditのr/clawdbotでAIコーディングエージェントの未来について議論しました。このインタラクティブなイベントから得られた主要な洞察と要点をご紹介します。