ドメインカモフラージュインジェクション攻撃がマルチエージェントLLMシステムの検出器を回避

Aaditya Paiによる新しい論文は、LLMインジェクション検出器の重大な盲点を明らかにしています:ドメインカモフラージュされたインジェクション攻撃—対象文書の語彙と権威構造を模倣するように生成されたペイロード—が組織的に検出を回避します。標準的な検出器は静的なペイロードを高い割合で検出しますが、カモフラージュされたものに対しては失敗します。
主な発見
- Llama 3.1 8Bの検出率:93.8%(静的)から9.7%(カモフラージュ)に低下。
- Gemini 2.0 Flashの検出率:100%から55.6%に低下。
- プロダクションセーフティ分類器であるLlama Guard 3は、カモフラージュされたペイロードをゼロ検出(IDR = 0.000)。
- カモフラージュ検出ギャップ(CDG)は、45タスクと3ドメインにわたって統計的に有意(Llama:χ² = 38.03、p < 0.001;Gemini:χ² = 17.05、p < 0.001)。
マルチエージェントディベートが攻撃を増幅
マルチエージェントディベートアーキテクチャは、小規模モデルで静的インジェクション攻撃を最大9.9倍増幅します。より強力なモデルは集団的な耐性を示します。ターゲットを絞った検出器の拡張はギャップを部分的にしか改善しません:Llamaで10.2%、Geminiで78.7%の改善—脆弱性は弱いモデルではアーキテクチャ上のものであることを示しています。
フレームワークが公開
著者らは、フレームワーク、タスクバンク、ペイロードジェネレーターを公開しています。盲点は数ショット検出器だけでなく、専用のセーフティ分類器にも及び、現在のアプローチの根本的な弱点を示唆しています。
📖 全文ソースを読む: HN LLM Tools
👀 See Also

Google検索で公開されているセキュリティ対策されていないペーパークリップインスタンスによるライブダッシュボードの露出
Redditユーザーがエラーを検索中に、完全な組織データがGoogleにインデックスされたライブのPaperclipダッシュボードを発見しました。このインスタンスは認証なしで公開されており、組織図、エージェントの会話、タスク割り当て、事業計画が明らかになりました。

AIエージェントによるプロダクション削除インシデント:そのパターンと修正方法
PocketOS、Replit、CursorにおけるAIエージェントによるプロダクション削除インシデントは、共通のアクセスパターンを持っています。対策:エージェントには本番環境の認証情報を与えず、すべての変更はポリシースコアリングゲートを通過したCI/CDを通じて行われます。

OpenClawスキルアナライザー:AIエージェントスキルの静的セキュリティスキャナー
ある開発者が、インストール前にOpenClawスキルのセキュリティリスクをスキャンする静的解析ツールを構築しました。プロンプトインジェクションやデータ流出など12カテゴリにわたる40以上の検出ルールを備えています。

クロード・ケージ:ClaudeコードセキュリティのためのDockerサンドボックス
開発者がClaude CageというDockerコンテナを作成し、Claude Codeを単一のワークスペースフォルダに隔離することで、SSHキー、AWS認証情報、個人ファイルへのアクセスを防止します。このセットアップにはセキュリティルールが含まれており、Dockerがインストールされていれば約2分で完了します。