Unicode文字でLLMエージェントが乗っ取られるリスク

研究概要

研究者たちは、通常のテキストに見える文章に埋め込まれた不可視のUnicode文字に隠された指示を大規模言語モデル（LLM）が従うかどうかをテストしました。この研究では、5つのモデル（GPT-5.2、GPT-4o-mini、Claude Opus 4、Sonnet 4、Haiku 4.5）に対して2つのエンコーディング方式（ゼロ幅バイナリとUnicodeタグ）を評価しました。8,308件の評価済み出力を分析し、このステガノグラフィー攻撃に対する脆弱性を評価しました。

主な発見

ツールアクセスが主要な増幅要因： ツールなしでは、隠された指示への従順性は17%未満に留まりました。ツールと解読のヒントがある場合、従順性は98-100%に達しました。モデルはツールアクセスを与えられると、隠された文字を解読するPythonスクリプトを作成します。
エンコーディングの脆弱性はプロバイダー固有： OpenAIモデルはゼロ幅バイナリを解読しますが、Unicodeタグは解読しません。Anthropicモデルはタグを優先します。攻撃者はターゲットモデルに合わせてエンコーディングを調整する必要があります。
ヒントの勾配は一貫： ヒントなしの従順性 << コードポイントヒント < 完全な解読指示。ツールアクセスと解読指示の組み合わせが決定的な要因です。
統計的有意性： すべての10組のモデル比較は統計的に有意でした（フィッシャーの正確確率検定、ボンフェローニ補正、p < 0.05）。コーエンのh効果量は最大1.37に達しました。

研究詳細

研究者は、APIモデルのみをテストしたため、ローカルモデルがどのように比較されるかを見ることは興味深いと指摘しています。彼らは、オープンソースのフレームワークを使用して、Llama、Qwen、Mistralなどの他のローカルモデルに対してこの評価を実行するよう他の研究者に呼びかけています。

評価フレームワーク、コード、データはGitHubで公開されており、チャート付きの完全なレポートはMoltwireで公開されています。この研究は、人間のユーザーには通常のテキストに見えるが、適切なツールが与えられるとモデルが解読して実行できるエンコードされた指示を含む隠しテキストを通じて、LLMエージェントが操作される可能性があるセキュリティ脆弱性を浮き彫りにしています。

📖 全文を読む： r/LocalLLaMA

研究：不可視のUnicode文字がツールアクセスを介してLLMエージェントを乗っ取る可能性

研究概要

主な発見

研究詳細

👀 See Also

MCPサーバーの信頼性とセキュリティに関する調査結果の独立報告書

Endo Familiar: AIエージェント向けオブジェクトケイパビリティサンドボックス

FastAPI Guardを使用して、OpenClawインスタンスを攻撃から保護します。

pi-governance: OpenClawコーディングエージェント向けRBAC、DLP、監査ログ