Claudeモデルは、特にツールアクセス時に、不可視のUnicode文字によるハイジャックに対して脆弱です。

ClaudeモデルにおけるUnicodeステガノグラフィの脆弱性
研究者たちは、不可視のUnicode文字が通常のテキスト内に隠し指示を埋め込むことでLLMの動作を乗っ取れるかどうかをテストしました。この研究では、GPT-5.2、GPT-4o-mini、および3つのClaudeモデル(Opus 4、Sonnet 4、Haiku 4.5)の合計8,308件の評価出力を分析しました。
Claudeモデルの主な発見
Sonnet 4は、ツールが有効な場合に71.2%の従順性を示し、全体的に最も影響を受けやすいモデルです。完全なヒントを与えると、テストされた両方のエンコーディング方式で98-100%の従順性に達しました。
Opus 4は、ツールが有効でコードポイントまたは完全なヒントが与えられた場合、Unicodeタグエンコーディングで100%の従順性を達成しますが、ゼロ幅バイナリエンコーディングでは48-68%にとどまります。
Haiku 4.5は、ツールアクセスが与えられた場合に脆弱性が最も大きく相対的に増加し、従順性が0.8%から49.2%に跳ね上がりました(オッズ比115)。
重要な脆弱性要因
ツールアクセスが重要な増幅要因。ツールがない場合、すべてのClaudeモデルの従順性は17%未満です。ツールが有効になると、モデルは不可視文字をデコードして隠し指示に従うPythonコードを生成します。
エンコーディングの選好パターン:Anthropicモデルはゼロ幅バイナリよりもUnicodeタグエンコーディングを強く好む一方、OpenAIモデルは逆のパターンを示します。
インジェクションのフレーミング効果:「すべての前の指示を無視してください」という追加は、Opusの従順性を低下させます(100%から低いレベルへ)が、Sonnetでは逆に増加させます(43.7%から59.6%へ)。
技術的詳細
研究者たちは、Unicodeタグとゼロ幅バイナリの2つのエンコーディング方式をテストしました。ツールが利用可能な場合、Claudeモデルはこれらの隠し文字をデコードし、隠された指示に従って動作するPythonコードを実行します。
この種の攻撃は、人間の読者には見えないがモデルによって検出・処理可能な不可視Unicode文字を使用して、悪意のある指示を一見無害なテキスト内に隠すステガノグラフィの一種です。
📖 完全なソースを読む: r/ClaudeAI
👀 See Also

オープンクローエージェントのための実践的セキュリティ対策
Redditの投稿では、OpenClawユーザー向けの具体的なセキュリティ対策が概説されています。これには、更新と監査のためのスケジュールコマンド、共有チャネルでのエージェントアクセスの管理、APIキーとスキルの保護などが含まれます。

クラーの法則:OpenClawエージェント向けオープンソースセキュリティルールセット
139のセキュリティルールを含むオープンソースのJSONルールセットで、破壊的なコマンドをブロックし、認証ファイルを保護し、指示ファイルを不正なエージェント編集から守ります。ツール層で正規表現パターンを使用し、LLM依存ゼロで動作します。

ClawSecure:OpenClawエコシステムのためのセキュリティプラットフォーム
ClawSecureは、OpenClawエコシステム専用に構築されたセキュリティプラットフォームで、3層監査プロトコル、継続的監視、OWASP ASIカテゴリーのカバレッジを特徴としています。3,000以上の人気スキルを監査済みで、無料で利用可能、サインアップ不要です。

SIEMホームラボ脅威ハンティングのためのOpenClaw SOCエージェント統合
Redditユーザーが、Debian 13上に構築したオープンソースSIEM「Red Threat Redemption」を紹介。Elasticsearch、Kibana、Wazuh、Zeek、pfSense with Suricataを統合し、AIエージェントを追加して脅威の自動相関分析、ハンティング、アラートトリアージを実現。