KnightClaw: Extensión de Seguridad Local para Agentes OpenClaw

KnightClaw es una extensión de seguridad diseñada para proteger a los agentes de codificación OpenClaw AI de mensajes adversarios. La herramienta aborda un modelo de amenaza específico donde un solo mensaje malicioso en la ventana de contexto puede hacer que un agente siga las instrucciones del atacante en lugar de los comandos del usuario.
Características Principales
KnightClaw funciona como una extensión lista para usar sin necesidad de configuración, sin claves API y sin dependencia de la nube. Intercepta cada mensaje antes de que llegue al agente.
Sistema de Detección
El guardián utiliza un enfoque de detección híbrida de 8 capas:
- Patrones de expresiones regulares
- Detección de homóglifos
- Análisis de tokens límite
- Puntuación de perplejidad
- Análisis de entropía
- Heurísticas
- Incrustaciones semánticas (usando un modelo BGE local y cuantizado)
Los bloqueos ocurren en microsegundos.
Medidas de Seguridad Adicionales
- Redacción de salida: Elimina secretos de las respuestas salientes antes de que abandonen el agente
- Registros de auditoría encadenados por hash: Registros a prueba de manipulaciones, solo de adición, con línea de tiempo completa de cada bloqueo, permiso y cambio de configuración
- Interruptor de velocidad: 10 bloqueos en 60 segundos activan un cierre automático sin intervención manual
- Interruptor de emergencia: Un comando detiene todo:
openclaw knight lockdown on
Detalles Técnicos
La extensión se ejecuta completamente localmente sin telemetría y tiene licencia MIT. El código fuente está disponible para pruebas y contribuciones.
📖 Leer la fuente completa: r/openclaw
👀 Ver también

Entendiendo ClawBands: Bandas de Seguridad para Agentes OpenClaw
ClawBands ofrece una mejora en la seguridad para los agentes de OpenClaw, probablemente centrada en el control de acceso o el manejo seguro de datos.

Alerta de Seguridad de OpenClaw: 500,000 Instancias Públicas, Configuración Predeterminada Expone Sistemas
Un análisis de seguridad revela que 500,000 instancias de OpenClaw son accesibles públicamente, con 30,000 que presentan riesgos de seguridad conocidos y 15,000 explotables mediante vulnerabilidades conocidas. La instalación predeterminada desactiva la autenticación y se vincula a 0.0.0.0, exponiendo las configuraciones de agentes a internet abierto.

LiteLLM v1.82.8 Compromiso Utiliza Archivo .pth para Ejecución Persistente
LiteLLM v1.82.8 fue comprometido en PyPI e incluye un archivo .pth que ejecuta código arbitrario en cada inicio de proceso Python, no solo cuando se importa la biblioteca. La carga útil se ejecuta incluso si LiteLLM está instalado como una dependencia transitiva y nunca se usa directamente.

Garra Abierta: Riesgos de Seguridad por Permisos Flojos en Bots de Discord
Un investigador de seguridad demuestra cómo OpenClaw puede ser explotado cuando los usuarios añaden el bot del asistente de IA a su servidor de Discord con permisos excesivos, dirigido a usuarios que otorgan acceso root/administrador sin considerar los controles de seguridad.