研究:不可視のUnicode文字がツールアクセスを介してLLMエージェントを乗っ取る可能性

研究概要
研究者たちは、通常のテキストに見える文章に埋め込まれた不可視のUnicode文字に隠された指示を大規模言語モデル(LLM)が従うかどうかをテストしました。この研究では、5つのモデル(GPT-5.2、GPT-4o-mini、Claude Opus 4、Sonnet 4、Haiku 4.5)に対して2つのエンコーディング方式(ゼロ幅バイナリとUnicodeタグ)を評価しました。8,308件の評価済み出力を分析し、このステガノグラフィー攻撃に対する脆弱性を評価しました。
主な発見
- ツールアクセスが主要な増幅要因: ツールなしでは、隠された指示への従順性は17%未満に留まりました。ツールと解読のヒントがある場合、従順性は98-100%に達しました。モデルはツールアクセスを与えられると、隠された文字を解読するPythonスクリプトを作成します。
- エンコーディングの脆弱性はプロバイダー固有: OpenAIモデルはゼロ幅バイナリを解読しますが、Unicodeタグは解読しません。Anthropicモデルはタグを優先します。攻撃者はターゲットモデルに合わせてエンコーディングを調整する必要があります。
- ヒントの勾配は一貫: ヒントなしの従順性 << コードポイントヒント < 完全な解読指示。ツールアクセスと解読指示の組み合わせが決定的な要因です。
- 統計的有意性: すべての10組のモデル比較は統計的に有意でした(フィッシャーの正確確率検定、ボンフェローニ補正、p < 0.05)。コーエンのh効果量は最大1.37に達しました。
研究詳細
研究者は、APIモデルのみをテストしたため、ローカルモデルがどのように比較されるかを見ることは興味深いと指摘しています。彼らは、オープンソースのフレームワークを使用して、Llama、Qwen、Mistralなどの他のローカルモデルに対してこの評価を実行するよう他の研究者に呼びかけています。
評価フレームワーク、コード、データはGitHubで公開されており、チャート付きの完全なレポートはMoltwireで公開されています。この研究は、人間のユーザーには通常のテキストに見えるが、適切なツールが与えられるとモデルが解読して実行できるエンコードされた指示を含む隠しテキストを通じて、LLMエージェントが操作される可能性があるセキュリティ脆弱性を浮き彫りにしています。
📖 全文を読む: r/LocalLLaMA
👀 See Also

Claudeモデルは、特にツールアクセス時に、不可視のUnicode文字によるハイジャックに対して脆弱です。
テスト結果によると、ツールが有効な場合、Claude Sonnet 4は不可視のUnicode文字に埋め込まれた隠し指示に対して71.2%の従順性を示し、Opus 4はUnicodeタグエンコーディングで100%の従順性を達成しました。ツールへのアクセスは、すべてのClaudeモデルの脆弱性を劇的に増加させます。

OpenClawセキュリティアラート:50万の公開インスタンス、デフォルト設定がシステムを危険に晒す
セキュリティ分析によると、50万のOpenClawインスタンスが公開アクセス可能であり、そのうち3万件は既知のセキュリティリスクを抱え、1万5千件は既知の脆弱性を通じて悪用可能です。デフォルトのインストールでは認証が無効化され、0.0.0.0にバインドされるため、エージェント設定がインターネット上に公開される状態となっています。

OpenClawインスタンスのための5つの必須セキュリティ手順
Redditの投稿では、OpenClawをデフォルト設定で実行すると重大なセキュリティリスクが生じると警告し、5つの緊急対策を提示しています:デフォルトポートの変更、プライベートアクセスのためのTailscaleの使用、ファイアウォールの設定、エージェント用の別アカウントの作成、スキルインストール前のスキャンです。

Ward: オープンソースツールがnpmインストールを傍受し、Claude Codeユーザーのサプライチェーン攻撃をブロックします
Wardは、インストールスクリプトが実行される前にすべてのパッケージをチェックするためにパッケージマネージャーにフックするオープンソースツールです。Claude Codeがnpm installを実行すると、Wardは自動的にパッケージをマルウェア、タイポスクワット、不審なスクリプト、バージョン異常についてスクリーニングします。