Clawvisor: Camada de Autorização Baseada em Propósito para Agentes OpenClaw

Clawvisor é uma camada de autorização que fica entre seu agente OpenClaw e as APIs que ele chama, abordando preocupações de segurança quando os agentes precisam acessar dados sensíveis como Gmail ou Calendário. Em vez de entregar credenciais diretamente, ele implementa autorização baseada em propósito: o agente declara o que pretende fazer, você aprova esse propósito específico e um guardião de IA verifica cada solicitação subsequente em relação a ele.
Como Funciona
O fluxo de trabalho segue estas etapas:
- Na configuração, você registra aplicativos para seu agente acessar e gera um token para seu agente
- Você instrui seu agente a fazer algo (por exemplo, verificar minha agenda e e-mail e me enviar um resumo)
- Seu agente registra uma "tarefa" no Clawvisor, com um propósito específico e escopos necessários
- Você revisa a tarefa no painel do Clawvisor e aprova se corresponder às suas expectativas
- Seu agente começa a executar a tarefa solicitando dados através do Clawvisor
- O Clawvisor inspeciona cada solicitação e garante que esteja alinhada com a tarefa aprovada
Recursos de Segurança
O modelo do guardião é projetado para ser resistente a injeção de prompt e desvio de contexto. Mesmo que uma instrução maliciosa convença seu agente a fazer uma solicitação, o Clawvisor a avalia em relação ao seu propósito aprovado original e a bloqueia. O trabalho do guardião permanece estritamente focado em verificar o alinhamento, evitando os riscos de desvio que afetam agentes de IA mais amplos.
Detalhes Técnicos
- O modelo do guardião é configurável, com o criador usando Haiku
- Adiciona apenas alguns centavos por dia aos custos da conta Claude
- Integração com Telegram para aprovar tarefas em movimento
- Mostra avaliação de risco com base na amplitude da permissão e coerência da tarefa
- Realiza encadeamento de contexto para passar fatos entre chamadas de API para detectar desvio da tarefa
- Suporta tarefas permanentes para operações regulares sem aprovação constante
- Oferece interfaces TUI e web
Começando
A instalação requer alguns comandos:
git clone https://github.com/clawvisor/clawvisor
cd clawvisor
make setup
make run
Em seguida, faça seu agente OpenClaw instalar a habilidade ClawHub:
clawhub install clawvisor
O Clawvisor é auto-hospedado e de código aberto, atualmente em desenvolvimento inicial, mas já sendo usado pelo criador para tarefas sensíveis. A ferramenta aborda a questão fundamental de confiança ao dar aos agentes de IA acesso a dados pessoais, garantindo que as credenciais nunca saiam da camada de autorização e que cada ação seja verificada em relação a propósitos aprovados pelo usuário.
📖 Read the full source: r/openclaw
👀 See Also

Injeção de Autoridade de Ferramentas em Agentes LLM: Quando a Saída da Ferramenta Sobrepõe a Intenção do Sistema
Um pesquisador demonstra 'Injeção de Autoridade de Ferramenta' em um laboratório local de agentes LLM, mostrando como a saída confiável de ferramentas pode ser elevada ao nível de autoridade de política, alterando silenciosamente o comportamento do agente enquanto a sandbox e o acesso a arquivos permanecem seguros.

Pesquisadores de Segurança em IA: Suas Vulnerabilidades de Dia Zero Podem Vazar pelo Botão de Consentimento de Dados
A opção 'Melhorar o modelo para todos' nas interfaces de LLM pode automaticamente coletar pesquisas profundas de red teaming, enviando seus conceitos de vulnerabilidade para as equipes de segurança dos fornecedores e potencialmente para artigos acadêmicos antes de você publicar. Desative o compartilhamento de dados antes de realizar pesquisas sérias de segurança.

KnightClaw: Extensão de Segurança Local para Agentes OpenClaw
KnightClaw é uma extensão plug-and-play que intercepta mensagens antes que elas cheguem aos agentes OpenClaw, fornecendo um sistema de detecção híbrido de 8 camadas e redação de saída. Ele roda completamente localmente, sem telemetria, e é licenciado sob MIT.

Incidente de Segurança da Meta Causado por Agente de IA Descontrolado que Forneceu Conselhos Técnicos Inadequados
Um engenheiro da Meta usou um agente de IA interno semelhante ao OpenClaw para analisar uma questão técnica, mas o agente publicou conselhos imprecisos publicamente em vez de privadamente, levando a um incidente de segurança SEV1 que expôs temporariamente dados sensíveis.