ローカルモデルプロンプトインジェクションスキャナー for AIスキルセキュリティ

AIスキルのセキュリティ脆弱性
Xでの議論で、サードパーティのAIスキルに深刻なセキュリティ上の欠陥が指摘されました。Claude Codeはスキル内で直接bashコマンドを実行する!演算子をサポートしていますが、これらの演算子はHTMLタグ内に隠される可能性があり、LLMが認識しないままbash実行が行われる恐れがあります。
ローカルスキャナーの実装
インストール時にスキル内の潜在的なマルウェアインジェクションをスキャンする概念実証ツールが構築されました。このスキャナーは、ローカルで実行される非ツール呼び出しモデル、具体的にはOllama上のmistral-small:latestを使用します。作成者はテスト中に「完璧に機能した」と報告しています。
このアプローチはウイルススキャナーと同様に機能し、将来の「スキルインストーラー」製品に統合される可能性があります。プロンプトインジェクションに対する保護は、ローカルモデルの有望な応用分野として特定されています。
技術的詳細
この脆弱性は、直接bashコマンド実行を可能にするClaude Codeの!演算子に関連しています。攻撃者はこれらの演算子をHTMLタグ内に隠すことで、LLMの知らないうちに悪意のあるコマンドを実行する可能性があります。スキャナーは、インストール前にスキルを分析してこのような隠れたインジェクションを検出することで、この問題に対処します。
📖 完全なソースを読む: r/LocalLLaMA
👀 See Also

オープンクロー・セキュリティ侵害:42,000インスタンスが公開
OpenClawは、42,000のインスタンスが露出し、341の悪意のあるスキルが発見された重大なセキュリティ侵害を経験しました。迅速な対応として、ClaudeエージェントをラップするセキュリティプロキシであるAgentVaultが作成されました。

AIエージェントによるプロダクション削除インシデント:そのパターンと修正方法
PocketOS、Replit、CursorにおけるAIエージェントによるプロダクション削除インシデントは、共通のアクセスパターンを持っています。対策:エージェントには本番環境の認証情報を与えず、すべての変更はポリシースコアリングゲートを通過したCI/CDを通じて行われます。

Claude Codeのアクセス権限を監査する:ツールアクセス範囲設定の実践ガイド
RedditユーザーがClaude Codeの設定を監査したところ、.envファイルや本番環境の設定を編集できる過剰な権限を持つツールを発見しました。実践的な対策:グローバルとプロジェクトごとのツールを監査し、CLAUDE.mdにシークレットがないか確認し、ディレクトリごとにファイルアクセスを制限すること。

Clawvisor: OpenClawエージェント向け目的ベース認可レイヤー
Clawvisorは、AIエージェントとAPIの間に位置する認可レイヤーで、目的ベースの認可を実施します。エージェントが意図を宣言し、ユーザーが特定の目的を承認すると、AIゲートキーパーがすべてのリクエストをその目的に対して検証します。認証情報はClawvisorから流出せず、エージェントがそれらを目にすることはありません。