KnightClaw: Extensão de Segurança Local para Agentes OpenClaw

✍️ OpenClawRadar📅 Publicado: February 23, 2026🔗 Source

KnightClaw é uma extensão de segurança projetada para proteger os agentes de codificação OpenClaw AI contra prompts adversariais. A ferramenta aborda um modelo de ameaça específico onde uma única mensagem maliciosa na janela de contexto pode fazer com que um agente siga instruções do atacante em vez dos comandos do usuário.

Funcionalidades Principais

O KnightClaw opera como uma extensão plug-and-play sem necessidade de configuração, sem chaves de API e sem dependência de nuvem. Ele intercepta cada mensagem antes que ela chegue ao agente.

Sistema de Detecção

O guardião utiliza uma abordagem de detecção híbrida de 8 camadas:

Padrões de regex
Detecção de homóglifos
Análise de tokens de limite
Pontuação de perplexidade
Análise de entropia
Heurísticas
Incorporamentos semânticos (usando um modelo BGE quantizado local)

Os bloqueios ocorrem em microssegundos.

Medidas de Segurança Adicionais

Redação de saída: Remove segredos das respostas de saída antes que elas deixem o agente
Logs de auditoria encadeados por hash: Logs à prova de adulteração, somente para acréscimo, com linha do tempo completa de cada bloqueio, permissão e alteração de configuração
Disjuntor de velocidade: 10 bloqueios em 60 segundos acionam bloqueio automático sem intervenção manual
Interruptor de emergência: Um comando para tudo: openclaw knight lockdown on

Detalhes Técnicos

A extensão roda completamente localmente, sem telemetria, e é licenciada sob MIT. O código-fonte está disponível para teste e contribuição.

📖 Leia o código-fonte completo: r/openclaw

👀 See Also

Security

Coldkey: Geração de Chaves na Era Pós-Quântica e Ferramenta de Backup em Papel

Coldkey gera chaves age pós-quânticas (ML-KEM-768 + X25519) e produz backups HTML de página única para impressão com códigos QR para armazenamento offline.

May 15, 2026, 10:17 AM UTC

OpenClawRadar

Security

Avaliação da AISI Mostra as Capacidades Cibernéticas da Prévia do Claude Mythos em CTF e Ataques de Múltiplas Etapas

O Instituto de Segurança de IA avaliou a versão prévia do Claude Mythos da Anthropic, constatando que ele completou com sucesso 73% dos desafios de capturar a bandeira de nível especialista e resolveu uma simulação de ataque a uma rede corporativa de 32 etapas em 3 de 10 tentativas.

Apr 16, 2026, 07:45 PM UTC

OpenClawRadar

Security

Pesquisadores de Segurança em IA: Suas Vulnerabilidades de Dia Zero Podem Vazar pelo Botão de Consentimento de Dados

A opção 'Melhorar o modelo para todos' nas interfaces de LLM pode automaticamente coletar pesquisas profundas de red teaming, enviando seus conceitos de vulnerabilidade para as equipes de segurança dos fornecedores e potencialmente para artigos acadêmicos antes de você publicar. Desative o compartilhamento de dados antes de realizar pesquisas sérias de segurança.

Feb 27, 2026, 07:45 PM UTC

OpenClawRadar

Security

Testando Modelos Qwen 3.5 35B Sem Censura para Perguntas de Cibersegurança

Um profissional de cibersegurança testou três modelos Qwen 3.5 35B sem censura em questões de hacking e bypass de segurança, encontrando diferenças significativas na qualidade das respostas em comparação com o modelo original censurado. Os modelos sem censura forneceram respostas consistentemente onde o modelo original se recusou ou deu respostas incompletas.

Apr 18, 2026, 01:45 AM UTC

OpenClawRadar