KnightClaw : Extension de Sécurité Locale pour les Agents OpenClaw

✍️ OpenClawRadar📅 Publié: February 23, 2026🔗 Source

KnightClaw est une extension de sécurité conçue pour protéger les agents de codage IA OpenClaw contre les invites adverses. L'outil répond à un modèle de menace spécifique où un seul message malveillant dans la fenêtre de contexte peut amener un agent à suivre les instructions de l'attaquant au lieu des commandes de l'utilisateur.

Fonctionnalités principales

KnightClaw fonctionne comme une extension prête à l'emploi sans configuration requise, sans clés API et sans dépendance au cloud. Il intercepte chaque message avant qu'il n'atteigne l'agent.

Système de détection

Le garde-barrière utilise une approche de détection hybride à 8 couches :

Modèles d'expressions régulières
Détection d'homoglyphes
Analyse des jetons de frontière
Évaluation de perplexité
Analyse d'entropie
Heuristiques
Incorporations sémantiques (utilisant un modèle BGE quantifié local)

Les blocages se produisent en microsecondes.

Mesures de sécurité supplémentaires

Rédaction de sortie : Supprime les secrets des réponses sortantes avant qu'elles ne quittent l'agent
Journaux d'audit à chaînage de hachage : Journaux inviolables, en ajout uniquement, avec chronologie complète de chaque blocage, autorisation et changement de configuration
Disjoncteur de vélocité : 10 blocages en 60 secondes déclenchent un verrouillage automatique sans intervention manuelle
Interrupteur d'arrêt d'urgence : Une commande arrête tout : openclaw knight lockdown on

Détails techniques

L'extension fonctionne entièrement en local sans aucune télémétrie et est sous licence MIT. Le code source est disponible pour les tests et contributions.

📖 Lire le code source complet : r/openclaw

👀 See Also

Security

Analyse des capacités d'instrumentation et de télémétrie de Claude Code

Une analyse du code source révèle que Claude Code implémente un suivi comportemental étendu incluant la classification des sentiments basée sur des mots-clés, la surveillance des hésitations lors des demandes d'autorisation, et une empreinte environnementale détaillée.

Apr 13, 2026, 02:45 PM UTC

OpenClawRadar

Security

Les LLM peuvent identifier les utilisateurs anonymes de forums avec une précision de 68 % et une exactitude de 90 %.

Des chercheurs ont utilisé Gemini et ChatGPT pour analyser des publications de Hacker News et Reddit, identifiant 68 % des utilisateurs anonymes avec une précision de 90 %. Les modèles ont accompli en quelques minutes ce qui prendrait des heures aux humains ou serait impossible.

Mar 23, 2026, 07:45 AM UTC

OpenClawRadar

Security

Comprendre les ClawBands : Bandes de sécurité pour les agents OpenClaw

Les ClawBands offrent une amélioration de la sécurité pour les agents OpenClaw, probablement axée sur le contrôle d'accès ou la gestion sécurisée des données.

Feb 16, 2026, 01:45 PM UTC

OpenClawRadar

Security

PolyRange : Benchmark offensif résistant à la contamination par IA avec cibles générées par LLM

PolyRange v1.0 est un benchmark auto-hébergé sous licence MIT qui génère de nouvelles cibles web à chaque exécution pour éviter la contamination des données d'entraînement. Il comprend 84 classes dérivées du WSTG couvrant toutes les catégories OWASP, deux niveaux de défense et des backends réels.

May 31, 2026, 12:16 PM UTC

OpenClawRadar