オープンソースのRAG攻撃と防御ラボ:ローカルのChromaDB + LM Studioスタック向け

概要
Aminrj Labsは、完全にローカルで消費者向けハードウェア上で動作するオープンソースのRAG攻撃・防御ラボをリリースしました。これは特に、標準的なLangChainスタイルのチャンキングを使用したChromaDB + LM Studioスタックを対象としています。クラウドサービスやAPIキーは不要で、MacBook Proなどのハードウェアで動作します。
ラボからの主な発見
このラボは、デフォルトのローカルRAGセットアップに対する知識ベース汚染の効果を測定します。防御されていないChromaDBシステムでは、汚染攻撃は95%の成功率を達成します。この攻撃は検索層で動作し、ジェイルブレイク、モデルアクセス、プロンプト操作は必要ありません。モデルは意図通りに動作しますが、汚染されたコンテキストを使用します。
デフォルトのチャンキングに関する注目すべき観察:512トークンのチャンクと200トークンのオーバーラップでは、チャンク境界にあるドキュメントは2つの独立したチャンクとして2回埋め込まれます。これにより、追加の複雑さなしに検索確率が2倍になり、これはほとんどのローカルセットアップが考慮せずに継承する設定の副作用です。
最も一般的な防御アプローチである出力フィルタリングは、侵害が生成前に発生するため、間違った層を対象としています。取り込み時の埋め込み異常検出は効果的です:既存のコレクションに対して受信ドキュメントをスコアリングしてから書き込むことで、汚染成功率を95%から20%に減少させます。
5つの防御すべてが有効な場合、残存する汚染成功率は10%です。これらのケースはベースラインに意味的に十分近く、どの層も明確に捕捉できないため、防御の実用的な上限を表しています。
技術的詳細
- スタック:ChromaDB + LM Studio with Qwen2.5-7B
- チャンキング:512トークンチャンクと200トークンオーバーラップの標準LangChainスタイル
- 防御されていないシステムでの攻撃成功率:95%
- 埋め込み異常検出による防御効果:汚染を20%に低下
- すべての防御を適用した場合の残存汚染:10%
リポジトリには、攻撃実装、強化バージョン、および各防御層の測定値が含まれています。
📖 Read the full source: r/LocalLLaMA
👀 See Also

LiteLLM v1.82.8の侵害は、永続的な実行のために.pthファイルを使用します
LiteLLM v1.82.8がPyPIで侵害され、.pthファイルを含んでおり、このファイルはライブラリがインポートされたときだけでなく、すべてのPythonプロセスの起動時に任意のコードを実行します。ペイロードは、LiteLLMが推移的依存関係としてインストールされ、直接使用されない場合でも実行されます。

Claude Code、取り消し後もログインセッションを継続、ユーザーが2週間のサポート音信不通を報告
Claude Codeのユーザーが、アクセスを取り消した後もセッションログが表示され続け、Anthropicのサポートが2週間応答しないと報告しています。ログには、user:file_upload、user:ccr_inference、user:sessions:claude_codeなどのスコープが含まれていました。

スキルアナライザーがClawHubで利用可能になり、ワンコマンドインストールで導入できます。
OpenClaw Skill Analyzerセキュリティスキャナーが、ClawHubでワンコマンドインストール可能になりました。このツールは、プロンプトインジェクションや資格情報窃取などの悪意のあるパターンをスキルフォルダからスキャンし、安全な実行のためのDockerサンドボックスサポートも含まれています。

研究:不可視のUnicode文字がツールアクセスを介してLLMエージェントを乗っ取る可能性
ある研究では、通常のテキストに埋め込まれた不可視のUnicode文字に隠された指示を大規模言語モデル(LLM)が従うかどうかをテストしました。2つのエンコーディング方式を5つのモデルで8,308件の評価済み出力を用いて検証。主な発見:ツールアクセスにより、従順性が17%未満から98-100%に増幅され、モデルは隠された文字を解読するPythonスクリプトを作成しました。