KnightClaw: Lokale Sicherheitserweiterung für OpenClaw-Agenten

KnightClaw ist eine Sicherheitserweiterung, die OpenClaw-KI-Codierungsagenten vor adversarischen Eingabeaufforderungen schützt. Das Tool adressiert ein spezifisches Bedrohungsmodell, bei dem eine einzige bösartige Nachricht im Kontextfenster dazu führen kann, dass ein Agent Anweisungen des Angreifers statt Benutzerbefehlen folgt.
Kernfunktionen
KnightClaw funktioniert als Plug-and-Play-Erweiterung ohne erforderliche Konfiguration, ohne API-Schlüssel und ohne Cloud-Abhängigkeit. Es fängt jede Nachricht ab, bevor sie den Agenten erreicht.
Erkennungssystem
Die Schutzfunktion verwendet einen 8-Schichten-Hybrid-Erkennungsansatz:
- Regex-Muster
- Homoglyphen-Erkennung
- Grenztoken-Analyse
- Perplexity-Bewertung
- Entropie-Analyse
- Heuristiken
- Semantische Einbettungen (unter Verwendung eines lokalen, quantisierten BGE-Modells)
Blockierungen erfolgen in Mikrosekunden.
Zusätzliche Sicherheitsmaßnahmen
- Ausgangsredaktion: Entfernt Geheimnisse aus ausgehenden Antworten, bevor sie den Agenten verlassen
- Hash-verkettete Prüfprotokolle: Manipulationssichere, nur-anhängende Protokolle mit vollständiger Zeitleiste jeder Blockierung, Zulassung und Konfigurationsänderung
- Geschwindigkeits-Schutzschalter: 10 Blockierungen in 60 Sekunden lösen automatische Sperrung ohne manuelles Eingreifen aus
- Notausschalter: Ein Befehl stoppt alles:
openclaw knight lockdown on
Technische Details
Die Erweiterung läuft vollständig lokal ohne jegliche Telemetrie und ist unter der MIT-Lizenz lizenziert. Der Quellcode ist für Tests und Beiträge verfügbar.
📖 Read the full source: r/openclaw
👀 Siehe auch

Clawvisor: Zweckbasierte Autorisierungsschicht für OpenClaw-Agenten
Clawvisor ist eine Autorisierungsschicht, die zwischen KI-Agenten und APIs sitzt und zweckbasierte Autorisierung durchsetzt, bei der Agenten Absichten deklarieren, Benutzer bestimmte Zwecke genehmigen und ein KI-Gatekeeper jede Anfrage gegen diesen Zweck überprüft. Anmeldedaten verlassen Clawvisor nie und Agenten sehen sie nie.

GitHub-Repository dokumentiert 16 Prompt-Injection-Techniken und Abwehrstrategien für öffentliche KI-Chats
Ein Entwickler veröffentlichte ein GitHub-Repository mit Sicherheitsmaßnahmen für öffentliche KI-Chatbots, nachdem Nutzer Prompt-Injection, Rollenspiel-Angriffe, mehrsprachige Tricks und Base64-codierte Payloads versucht hatten. Die Anleitung enthält eine Claude-Code-Fähigkeit, um alle 16 dokumentierten Injection-Techniken zu testen.

MCP-Server-CVE-Exposure-Mapping und öffentliche API veröffentlicht
Forscher haben die CVE-Exposition über Tausende von MCP-Servern kartiert und eine öffentliche API zum Abfragen von Abhängigkeitsschwachstellen erstellt. Die API ermöglicht die Suche nach Repository/Name, Filterung nach Schweregrad und Sortierung nach CVE-Anzahl oder Aktualität.

Open-Source Attack Surface Management Cheat Sheet veröffentlicht
Ein Entwickler hat ein Open-Source-Cheat-Sheet für Attack Surface Management veröffentlicht, das praktische Workflows, Tools und Referenzen abdeckt. Das Projekt umfasst Abschnitte zu Asset-Erkennung, Infrastrukturverfolgung, Aufklärungstools, Automatisierungsworkflows und Lernressourcen.