KnightClaw: Extensão de Segurança Local para Agentes OpenClaw

KnightClaw é uma extensão de segurança projetada para proteger os agentes de codificação OpenClaw AI contra prompts adversariais. A ferramenta aborda um modelo de ameaça específico onde uma única mensagem maliciosa na janela de contexto pode fazer com que um agente siga instruções do atacante em vez dos comandos do usuário.
Funcionalidades Principais
O KnightClaw opera como uma extensão plug-and-play sem necessidade de configuração, sem chaves de API e sem dependência de nuvem. Ele intercepta cada mensagem antes que ela chegue ao agente.
Sistema de Detecção
O guardião utiliza uma abordagem de detecção híbrida de 8 camadas:
- Padrões de regex
- Detecção de homóglifos
- Análise de tokens de limite
- Pontuação de perplexidade
- Análise de entropia
- Heurísticas
- Incorporamentos semânticos (usando um modelo BGE quantizado local)
Os bloqueios ocorrem em microssegundos.
Medidas de Segurança Adicionais
- Redação de saída: Remove segredos das respostas de saída antes que elas deixem o agente
- Logs de auditoria encadeados por hash: Logs à prova de adulteração, somente para acréscimo, com linha do tempo completa de cada bloqueio, permissão e alteração de configuração
- Disjuntor de velocidade: 10 bloqueios em 60 segundos acionam bloqueio automático sem intervenção manual
- Interruptor de emergência: Um comando para tudo:
openclaw knight lockdown on
Detalhes Técnicos
A extensão roda completamente localmente, sem telemetria, e é licenciada sob MIT. O código-fonte está disponível para teste e contribuição.
📖 Leia o código-fonte completo: r/openclaw
👀 See Also

FakeKey: Ferramenta de segurança para chaves de API baseada em Rust que substitui chaves reais por falsas
FakeKey é uma ferramenta de segurança baseada em Rust que substitui chaves de API reais por falsas em ambientes de aplicação, armazenando as chaves reais criptografadas no keychain nativo do sistema e injetando-as apenas durante solicitações HTTP/S.

Falso site do Claude Code serviu trojan — detectado pelo Windows Defender como Trojan:Win32/Kepavll!rfn
Um site de typosquatting ou baseado em anúncios, imitando o site oficial do Claude Code, entregou um trojan detectado como Trojan:Win32/Kepavll!rfn pelo Windows Defender. Usuário do Reddit alerta outros a verificarem as URLs antes de executar comandos de instalação do PowerShell.

AgenteSeal Security Scan Detecta Riscos de Agente de IA no Servidor Blender MCP
O AgentSeal escaneou o servidor MCP do Blender (17 mil estrelas) e identificou vários problemas de segurança relevantes para agentes de IA, incluindo execução arbitrária de Python, possíveis cadeias de exfiltração de arquivos e padrões de injeção de prompt nas descrições das ferramentas.

Ataque em grande escala à cadeia de suprimentos do NPM e PyPI atinge TanStack, Mistral AI e mais de 170 pacotes
Um ataque coordenado comprometeu mais de 170 pacotes npm e 2 pacotes PyPI, visando TanStack (42 pacotes), SDKs da Mistral AI, UiPath, OpenSearch e Guardrails AI. Versões maliciosas executam um dropper que exfiltra credenciais e investiga metadados da nuvem.