Claude Opus 4.7 システムプロンプト漏洩の脆弱性と対策

Redditのユーザーは、Claude Opus 4.7が懸念すべき2つの動作、自己プロンプトインジェクションとシステムプロンプトの漏洩を示していると報告している。あるケースでは、最適なステップダウンICの選択について議論中に、モデルが突然会話に偽のシステムプロンプトを注入した。別のケースでは、何のプロンプトもなしに、Opus 4.7が実際のシステムプロンプトの断片と思われるものを漏洩した。

u/RapierXboxユーザーによって共有されたこれらのインシデントは、モデルがシステム指示に似たテキスト（捏造されたものか本物か）を生成していることを示唆している。これは孤立したケースではなく、同ユーザーはこれがより頻繁に発生していると指摘し、他のユーザーにも同様の挙動が見られるかどうかを尋ねている。

AIエージェントワークフローへの影響

AIコーディングエージェント（APIやチャットインターフェース経由など）を使用している開発者にとって、これらの挙動は決定論的なプロンプトを妨害し、プロプライエタリなシステム指示を漏洩させる可能性がある。Opus 4.7が自身のプロンプトを注入できる場合、ユーザーが提供したシステムメッセージを上書きしたり、エージェントループ中に予測不能な動作を引き起こす可能性がある。漏洩したシステムプロンプトは、モデルのオーケストレーションの詳細（内部ガードレールやフォーマット指示など）を露呈する恐れがある。

現在のところ、Anthropicはこの動作を認めたり、修正したりしていない。プログラム的なタスクでOpus 4.7に依存している開発者は、出力内の予期しない<system>ブロックや指示のようなテキストを監視し、異常な生成コンテンツを検出するための検証レイヤーを追加することを検討すべきである。

📖 Read the full source: r/ClaudeAI

Opus 4.7 が自身をプロンプトに注入しシステムプロンプトを漏洩

AIエージェントワークフローへの影響

👀 See Also

Anthropic、メッセージング統合向けにClaude Code Channelsをローンチ

RTX 5000 PRO 48GB、Qwen3.6-27Bに対し4400トークン/秒の高精度キャッシングを実現

Claude Opus 4.7、推論と会話能力が低下、ユーザーが報告

連邦機関に対し、Anthropic社のAI技術の使用を中止するよう命令