KnightClaw: Extensión de Seguridad Local para Agentes OpenClaw

✍️ OpenClawRadar📅 Publicado: 23 de febrero de 2026🔗 Source

KnightClaw es una extensión de seguridad diseñada para proteger a los agentes de codificación OpenClaw AI de mensajes adversarios. La herramienta aborda un modelo de amenaza específico donde un solo mensaje malicioso en la ventana de contexto puede hacer que un agente siga las instrucciones del atacante en lugar de los comandos del usuario.

Características Principales

KnightClaw funciona como una extensión lista para usar sin necesidad de configuración, sin claves API y sin dependencia de la nube. Intercepta cada mensaje antes de que llegue al agente.

Sistema de Detección

El guardián utiliza un enfoque de detección híbrida de 8 capas:

Patrones de expresiones regulares
Detección de homóglifos
Análisis de tokens límite
Puntuación de perplejidad
Análisis de entropía
Heurísticas
Incrustaciones semánticas (usando un modelo BGE local y cuantizado)

Los bloqueos ocurren en microsegundos.

Medidas de Seguridad Adicionales

Redacción de salida: Elimina secretos de las respuestas salientes antes de que abandonen el agente
Registros de auditoría encadenados por hash: Registros a prueba de manipulaciones, solo de adición, con línea de tiempo completa de cada bloqueo, permiso y cambio de configuración
Interruptor de velocidad: 10 bloqueos en 60 segundos activan un cierre automático sin intervención manual
Interruptor de emergencia: Un comando detiene todo: openclaw knight lockdown on

Detalles Técnicos

La extensión se ejecuta completamente localmente sin telemetría y tiene licencia MIT. El código fuente está disponible para pruebas y contribuciones.

📖 Leer la fuente completa: r/openclaw

👀 Ver también

Seguridad

Claude Code --vulnerabilidad de omisión peligrosa de permisos y herramienta de defensa de código abierto

Lasso Security publicó una investigación que muestra vulnerabilidades de inyección indirecta de instrucciones en Claude Code al usar la bandera --dangerously-skip-permissions, con vectores de ataque que incluyen archivos README envenenados, contenido web malicioso y salidas de servidores MCP. Lanzaron un gancho PostToolUse de código abierto que escanea las salidas de herramientas contra más de 50 patrones de detección.

24 mar 2026, 23:45 UTC

OpenClawRadar

Seguridad

OpenClaw Parchea una Escalación de Privilegios Crítica en la Ruta /pair Approve

OpenClaw 2026.3.28 corrige una vulnerabilidad de seguridad crítica (GHSA-hc5h-pmr3-3497) donde el comando /pair approve permitía a usuarios con privilegios de emparejamiento aprobar solicitudes de dispositivos para alcances más amplios, incluido el acceso de administrador. Las versiones afectadas son <= 2026.3.24.

13 abr 2026, 08:51 UTC

OpenClawRadar

Seguridad

VulnHunter: La herramienta de seguridad de código con IA agente de Capital One ahora es de código abierto

Capital One ha lanzado como código abierto VulnHunter, una herramienta de IA agente que simula puntos de entrada de atacantes, falsifica hallazgos para reducir falsos positivos y genera correcciones de código específicas.

18 jul 2026, 00:15 UTC

OpenClawRadar

Seguridad

El repositorio de GitHub documenta 16 técnicas de inyección de prompts y estrategias de defensa para chats públicos de IA.

Un desarrollador publicó un repositorio en GitHub que detalla medidas de seguridad para chatbots de IA públicos después de que usuarios intentaran inyección de prompts, ataques de roleplay, trucos multilingües y payloads codificados en base64. La guía incluye una habilidad de código de Claude para probar las 16 técnicas de inyección documentadas.

10 mar 2026, 14:45 UTC

OpenClawRadar