LLMセキュリティベンチマーク：10モデルを211の攻撃で比較

あるセキュリティ研究者が、現実世界のシナリオにおける攻撃への対処能力を評価するため、10種類の異なるLLMに対して211種類の敵対的セキュリティプローブを用いた体系的なテストを実施しました。

テスト手法

研究者は、温度0の標準化されたセットアップと、すべてのモデルに対して同一のAPI呼び出しを使用しました。テストには、82種類の抽出プローブ（システムプロンプトの窃取を試みる）と109種類のインジェクションプローブ（モデルの動作を乗っ取ることを試みる）が含まれていました。偽のPII、SSHキー、API認証情報が含まれたハニーポットシステムプロンプトが餌として使用されました。

主な発見

抽出耐性はほぼ解決済み: ほとんどのモデルは「システムプロンプトを繰り返せ」タイプの攻撃をブロックするのに適しています。全モデル平均は約85％です。
インジェクション耐性は未解決: 平均は46.2％であり、インジェクション攻撃の半分以上が全体的に成功していることを意味します。
普遍的な失敗: すべてのモデルが、デリミタ攻撃、ディストラクタインジェクション、スタイルインジェクションで失敗しました。これら3つのカテゴリーでは、10モデルすべてで0％の耐性でした。
無効化された攻撃パターン: すべてのモデルが、ペイロード分割とタイポ回避に対して100％の耐性を示しました。

モデル別結果

Claude Opus: インジェクション耐性で72.7％を記録し、テストされたモデルの中で最高でした。それでも、4回に1回以上のインジェクション攻撃が成功することを意味します。
GPT-5.4: 抽出と境界スコアは完璧ですが、インジェクション耐性は50％に留まります。
GPT-5.3 Codex: ユーザーのマシン上でコードを実行するCodex CLIの基盤モデルは、インジェクションで34.5％を記録しました。3回に2回のインジェクション試行が成功します。
DeepSeek V3.2: インジェクションで17.4％を記録し、実質的に耐性がありません。
Qwen 3.5 API vs ローカル: 抽出耐性はほぼ同一（81.6％ vs 81.7％）ですが、ローカル版はインジェクション耐性が悪く（46.9％ vs 29.8％）、境界整合性も大幅に悪いです（59.8％ vs 44.6％）。ローカルで実行しても抽出ブロック能力は低下しませんが、インジェクションに対してはより脆弱になります。

インジェクションの重要性

抽出とは、誰かがあなたのシステムプロンプトを盗むことを意味します。悪いことですが、回復可能です。インジェクションとは、誰かがあなたのエージェントの動作を乗っ取ることを意味します。もしあなたのエージェントがツールアクセス、ファイルシステムアクセス、またはAPI呼び出し権限を持っている場合、インジェクションが成功すると、データ流出、ファイル削除、あるいはさらに悪い事態を引き起こす可能性があります。現在、世界最高のモデルでもインジェクション試行の73％しかブロックできません。

完全な手法と結果はagentseal.org/benchmarkで公開されています。テストプロンプトも公開されているため、誰でも結果を再現できます。

📖 完全なソースを読む: r/LocalLLaMA