ローカルLLMプロンプトインジェクションスキャナー

AIスキルのセキュリティ脆弱性

Xでの議論で、サードパーティのAIスキルに深刻なセキュリティ上の欠陥が指摘されました。Claude Codeはスキル内で直接bashコマンドを実行する!演算子をサポートしていますが、これらの演算子はHTMLタグ内に隠される可能性があり、LLMが認識しないままbash実行が行われる恐れがあります。

ローカルスキャナーの実装

インストール時にスキル内の潜在的なマルウェアインジェクションをスキャンする概念実証ツールが構築されました。このスキャナーは、ローカルで実行される非ツール呼び出しモデル、具体的にはOllama上のmistral-small:latestを使用します。作成者はテスト中に「完璧に機能した」と報告しています。

このアプローチはウイルススキャナーと同様に機能し、将来の「スキルインストーラー」製品に統合される可能性があります。プロンプトインジェクションに対する保護は、ローカルモデルの有望な応用分野として特定されています。

技術的詳細

この脆弱性は、直接bashコマンド実行を可能にするClaude Codeの!演算子に関連しています。攻撃者はこれらの演算子をHTMLタグ内に隠すことで、LLMの知らないうちに悪意のあるコマンドを実行する可能性があります。スキャナーは、インストール前にスキルを分析してこのような隠れたインジェクションを検出することで、この問題に対処します。

📖 完全なソースを読む: r/LocalLLaMA

ローカルモデルプロンプトインジェクションスキャナー for AIスキルセキュリティ

AIスキルのセキュリティ脆弱性

ローカルスキャナーの実装

技術的詳細

👀 See Also

OpenClawがプロダクティビティ・プレイブックから怪しいスクリプトをブロックし、その後ファイナンシャル・ワークブックの構築を続けた

MCPサンドボックス：信頼せずにMCPサーバーを隔離されたコンテナで実行

クラウドコードの計装およびテレメトリ能力の分析

Sieve: AIコーディングツールチャット履歴のローカルシークレットスキャナ