カモフラージュプロンプトインジェクションがLLMガードを回避：IDRが9.7%に低下

Aaditya Paiによる新しい論文は、LLMインジェクション検出器の重大な盲点を明らかにしています：ドメインカモフラージュされたインジェクション攻撃—対象文書の語彙と権威構造を模倣するように生成されたペイロード—が組織的に検出を回避します。標準的な検出器は静的なペイロードを高い割合で検出しますが、カモフラージュされたものに対しては失敗します。

主な発見

Llama 3.1 8Bの検出率：93.8%（静的）から9.7%（カモフラージュ）に低下。
Gemini 2.0 Flashの検出率：100%から55.6%に低下。
プロダクションセーフティ分類器であるLlama Guard 3は、カモフラージュされたペイロードをゼロ検出（IDR = 0.000）。
カモフラージュ検出ギャップ（CDG）は、45タスクと3ドメインにわたって統計的に有意（Llama：χ² = 38.03、p < 0.001；Gemini：χ² = 17.05、p < 0.001）。

マルチエージェントディベートが攻撃を増幅

マルチエージェントディベートアーキテクチャは、小規模モデルで静的インジェクション攻撃を最大9.9倍増幅します。より強力なモデルは集団的な耐性を示します。ターゲットを絞った検出器の拡張はギャップを部分的にしか改善しません：Llamaで10.2%、Geminiで78.7%の改善—脆弱性は弱いモデルではアーキテクチャ上のものであることを示しています。