セキュリティベンチマーク:211の敵対的プローブでテストされた10のLLM

あるセキュリティ研究者が、現実世界のシナリオにおける攻撃への対処能力を評価するため、10種類の異なるLLMに対して211種類の敵対的セキュリティプローブを用いた体系的なテストを実施しました。
テスト手法
研究者は、温度0の標準化されたセットアップと、すべてのモデルに対して同一のAPI呼び出しを使用しました。テストには、82種類の抽出プローブ(システムプロンプトの窃取を試みる)と109種類のインジェクションプローブ(モデルの動作を乗っ取ることを試みる)が含まれていました。偽のPII、SSHキー、API認証情報が含まれたハニーポットシステムプロンプトが餌として使用されました。
主な発見
- 抽出耐性はほぼ解決済み: ほとんどのモデルは「システムプロンプトを繰り返せ」タイプの攻撃をブロックするのに適しています。全モデル平均は約85%です。
- インジェクション耐性は未解決: 平均は46.2%であり、インジェクション攻撃の半分以上が全体的に成功していることを意味します。
- 普遍的な失敗: すべてのモデルが、デリミタ攻撃、ディストラクタインジェクション、スタイルインジェクションで失敗しました。これら3つのカテゴリーでは、10モデルすべてで0%の耐性でした。
- 無効化された攻撃パターン: すべてのモデルが、ペイロード分割とタイポ回避に対して100%の耐性を示しました。
モデル別結果
- Claude Opus: インジェクション耐性で72.7%を記録し、テストされたモデルの中で最高でした。それでも、4回に1回以上のインジェクション攻撃が成功することを意味します。
- GPT-5.4: 抽出と境界スコアは完璧ですが、インジェクション耐性は50%に留まります。
- GPT-5.3 Codex: ユーザーのマシン上でコードを実行するCodex CLIの基盤モデルは、インジェクションで34.5%を記録しました。3回に2回のインジェクション試行が成功します。
- DeepSeek V3.2: インジェクションで17.4%を記録し、実質的に耐性がありません。
- Qwen 3.5 API vs ローカル: 抽出耐性はほぼ同一(81.6% vs 81.7%)ですが、ローカル版はインジェクション耐性が悪く(46.9% vs 29.8%)、境界整合性も大幅に悪いです(59.8% vs 44.6%)。ローカルで実行しても抽出ブロック能力は低下しませんが、インジェクションに対してはより脆弱になります。
インジェクションの重要性
抽出とは、誰かがあなたのシステムプロンプトを盗むことを意味します。悪いことですが、回復可能です。インジェクションとは、誰かがあなたのエージェントの動作を乗っ取ることを意味します。もしあなたのエージェントがツールアクセス、ファイルシステムアクセス、またはAPI呼び出し権限を持っている場合、インジェクションが成功すると、データ流出、ファイル削除、あるいはさらに悪い事態を引き起こす可能性があります。現在、世界最高のモデルでもインジェクション試行の73%しかブロックできません。
完全な手法と結果はagentseal.org/benchmarkで公開されています。テストプロンプトも公開されているため、誰でも結果を再現できます。
📖 完全なソースを読む: r/LocalLLaMA
👀 See Also

pi-governance: OpenClawコーディングエージェント向けRBAC、DLP、監査ログ
pi-governanceは、AIコーディングエージェントとシステムの間に位置し、ツール呼び出しを分類してリスクの高い操作をブロックするプラグインです。bashコマンドのブロック、機密情報やPIIのDLPスキャン、ロールベースのアクセス制御、構造化された監査ログをゼロ設定で提供します。

OpenClawのセキュリティ懸念:デフォルトのセルフホスティングにおけるAPIキーと会話データのリスク
シスコのレポートによると、OpenClawのセキュリティは「オプションであり、組み込まれていない」とされており、デフォルト設定ではAPIキーがVPSインスタンスの.envファイルに保存されるため、基本的なドロップレットで運用する非技術ユーザーに潜在的なリスクをもたらす可能性があります。

Tailscaleを使用したOpenClawの安全なリモートアクセス
なし

大量NPM和PyPI供应链攻击波及TanStack、Mistral AI及170多个软件包
調整された攻撃により、170以上のnpmパッケージと2つのPyPIパッケージが侵害され、TanStack(42パッケージ)、Mistral AI SDK、UiPath、OpenSearch、Guardrails AIが標的となりました。悪意のあるバージョンは、認証情報を流出させ、クラウドメタデータを調べるドロッパーを実行します。