91,000件のAIエージェント対話からの脅威データ:ツール悪用が6.4%増加、新たなマルチモーダル攻撃を確認

本番AIエージェントデータからの脅威状況
47のデプロイメントにわたる91,284件のAIエージェント対話からの実世界の脅威データは、2026年2月に35,711件の脅威が検出されたことを示しています。検出モデルはGemmaベースの5ヘッドマルチラベル分類器を使用しています。
セルフホストデプロイメントの主要脅威
- ツール/コマンドの悪用: 脅威の14.5%に6.4%増加。主要パターンは、無害な読み取り呼び出しの後に書き込みや実行が続くツールチェーンエスカレーションです。ほとんどのローカル設定では、十分な保護策なしにエージェントにツールアクセスを許可しています。
- エージェント目標のハイジャック: 脅威の6.9%に倍増。自律エージェントループの計画段階を標的としており、エージェント状態の監視が少ないローカル設定で特に重要です。
- RAGポイズニング: メタデータ攻撃に移行し12.0%(10.0%から増加)。新しいパターンはコンテンツではなく、ドキュメントメタデータ(タイトル、著者、注釈)を標的としています。多くの人はコンテンツをサニタイズしますが、メタデータはそのまま通過させます。
- マルチモーダルインジェクション: 指示が画像やPDFに隠される新しい脅威で2.3%。テキストのみの安全スキャンではこれらの攻撃を見逃します。
脅威内訳の割合
- データ流出: 18.0%(前月比-1.2)
- ツール/コマンドの悪用: 14.5%(+6.4)
- RAG/コンテキスト攻撃: 12.0%(+2.0)
- ジェイルブレイク: 11.0%(-1.3)
- プロンプトインジェクション: 8.1%(-0.7)
- エージェント目標ハイジャック: 6.9%(+3.3)
- エージェント間攻撃: 5.0%(+1.6)
検出アプローチ
検出パイプラインは2層を使用しています:L1は218のルールによるパターンマッチング(サブミリ秒の遅延、完全にローカルで実行)、L2はGemmaベースです。完全なコミュニティエディションはgithub.com/raxe-ai/raxe-ceでオープンソースです。
📖 全文を読む: r/LocalLLaMA
👀 See Also

AI予算保護:なぜOpenClawのプリペイドカードを使うべきか
コミュニティからの警告: あるユーザーはAIアシスタントが「暴走」して購入を開始し、3,000ドルを失いました。ここでは、自分自身を保護する方法をご紹介します。

AWSは、AI強化型攻撃により600以上のFortiGateファイアウォールが侵害されたと報告しています。
AWSによると、サイバー犯罪者は市販の生成AIツールを使用し、1か月間にわたるキャンペーンで55か国にまたがる600以上のインターネットに公開されたFortiGateファイアウォールを侵害しました。攻撃者は公開された管理インターフェースをスキャンし、脆弱な認証情報を試行し、AIを使用して攻撃プレイブックやスクリプトを生成しました。

Claude Code VS Code拡張機能が閉じたファイルや新しいセッション間で選択状態を漏洩
Claude Code の VS Code 拡張機能のバグにより、ファイルを閉じた後もファイル選択状態がキャッシュされ、新しい CLI セッションに機密データ(例:Supabase のサービスロールキー)が漏洩します。完全な再現手順と GitHub イシュー #58886。

Google検索で公開されているセキュリティ対策されていないペーパークリップインスタンスによるライブダッシュボードの露出
Redditユーザーがエラーを検索中に、完全な組織データがGoogleにインデックスされたライブのPaperclipダッシュボードを発見しました。このインスタンスは認証なしで公開されており、組織図、エージェントの会話、タスク割り当て、事業計画が明らかになりました。