RAG知識汚染の95%成功：ローカルChromaDB＋LM Studio防御ラボ

概要

Aminrj Labsは、完全にローカルで消費者向けハードウェア上で動作するオープンソースのRAG攻撃・防御ラボをリリースしました。これは特に、標準的なLangChainスタイルのチャンキングを使用したChromaDB + LM Studioスタックを対象としています。クラウドサービスやAPIキーは不要で、MacBook Proなどのハードウェアで動作します。

ラボからの主な発見

このラボは、デフォルトのローカルRAGセットアップに対する知識ベース汚染の効果を測定します。防御されていないChromaDBシステムでは、汚染攻撃は95%の成功率を達成します。この攻撃は検索層で動作し、ジェイルブレイク、モデルアクセス、プロンプト操作は必要ありません。モデルは意図通りに動作しますが、汚染されたコンテキストを使用します。

デフォルトのチャンキングに関する注目すべき観察：512トークンのチャンクと200トークンのオーバーラップでは、チャンク境界にあるドキュメントは2つの独立したチャンクとして2回埋め込まれます。これにより、追加の複雑さなしに検索確率が2倍になり、これはほとんどのローカルセットアップが考慮せずに継承する設定の副作用です。

最も一般的な防御アプローチである出力フィルタリングは、侵害が生成前に発生するため、間違った層を対象としています。取り込み時の埋め込み異常検出は効果的です：既存のコレクションに対して受信ドキュメントをスコアリングしてから書き込むことで、汚染成功率を95%から20%に減少させます。

5つの防御すべてが有効な場合、残存する汚染成功率は10%です。これらのケースはベースラインに意味的に十分近く、どの層も明確に捕捉できないため、防御の実用的な上限を表しています。