8層ハイブリッド検知: KnightClawでOpenClawエージェントを保護

KnightClawは、OpenClaw AIコーディングエージェントを敵対的プロンプトから保護するために設計されたセキュリティ拡張機能です。このツールは、コンテキストウィンドウ内の単一の悪意あるメッセージが、エージェントにユーザーのコマンドではなく攻撃者の指示に従わせる可能性があるという特定の脅威モデルに対処します。

主要機能

KnightClawは、設定不要、APIキー不要、クラウド依存なしのドロップイン拡張機能として動作し、エージェントに到達する前のすべてのメッセージを傍受します。

検知システム

このガードは8層のハイブリッド検知アプローチを採用しています：

正規表現パターン
ホモグリフ検知
境界トークン分析
パープレキシティスコアリング
エントロピー分析
ヒューリスティック
意味的埋め込み（ローカルの量子化BGEモデルを使用）

ブロックはマイクロ秒単位で発生します。

追加のセキュリティ対策

出力編集： エージェントから外部に送信される前に、応答からシークレットを除去します
ハッシュチェーン監査ログ： 改ざん防止、追記専用のログで、すべてのブロック、許可、設定変更の完全なタイムラインを記録
速度サーキットブレーカー： 60秒間に10回のブロックが発生すると、手動介入なしで自動的にロックダウンを発動
キルスイッチ： 1つのコマンドですべてを停止：openclaw knight lockdown on

技術詳細

この拡張機能は完全にローカルで動作し、テレメトリーは一切なく、MITライセンスで提供されています。ソースコードはテストと貢献のために公開されています。

📖 完全なソースを読む： r/openclaw

KnightClaw: OpenClawエージェント向けローカルセキュリティ拡張機能

主要機能

検知システム

追加のセキュリティ対策

技術詳細

👀 See Also

セキュリティ監査により、AnthropicのMCP参照サーバーに脆弱性が発見され、幻覚ベースの脆弱性が導入される可能性が判明

サンドボックス化されたOpenClaw：AIコーディングにおけるセキュリティ強化

AIエージェントの過度な中央集権化に対するアーキテクチャ的修正：メモリ、実行、アウトバウンドアクションの分離

農場からコードへ：農夫がオープンクロー用のオープンソースランタイム防御をどのように作ったか