BlindKey: Injeção Cega de Credenciais para Agentes de IA

Como o BlindKey Funciona
O BlindKey aborda o risco de segurança de agentes de IA manipularem credenciais de API em texto puro. Em vez de dar aos agentes acesso direto aos segredos, ele utiliza um sistema onde os agentes referenciam tokens de cofre criptografados (por exemplo, bk://stripe). Um proxy local intercepta essas referências e injeta a credencial real no momento em que a solicitação da API é feita. O processo do agente nunca vê ou armazena o segredo em texto puro.
Recursos de Segurança
- Criptografia AES-256-GCM para dados em repouso
- Lista de permissão de domínio por segredo (por exemplo, uma chave do Stripe só pode ser usada com api.stripe.com)
- Bloqueio padrão do sistema de arquivos
- Verificação de conteúdo em gravações do agente para detectar credenciais ou PII vazadas acidentalmente
- Registro de auditoria com evidência de adulteração e cadeia de hash criptográfica
Modelo de Ameaça e Superfície de Ataque
A principal vulnerabilidade identificada é se um agente conseguir ler a memória do próprio processo do BlindKey ou o arquivo do cofre, o que contornaria a proteção de injeção cega. As mitigações atuais incluem criptografia SQLite e permissões de arquivo em nível de sistema operacional. A fonte sugere que o isolamento em nível de kernel (como a abordagem do nono) forneceria proteção mais forte.
A ferramenta está disponível no GitHub em github.com/michaelkenealy/blindkey.
📖 Read the full source: r/openclaw
👀 See Also

Garra Aberta: Riscos de Segurança de Permissões Frouxas em Bots do Discord
Um pesquisador de segurança demonstra como o OpenClaw pode ser explorado quando usuários adicionam o bot do assistente de IA ao seu servidor do Discord com permissões excessivas, visando usuários que concedem acesso root/admin sem considerar os controles de segurança.

Avaliação da AISI Mostra as Capacidades Cibernéticas da Prévia do Claude Mythos em CTF e Ataques de Múltiplas Etapas
O Instituto de Segurança de IA avaliou a versão prévia do Claude Mythos da Anthropic, constatando que ele completou com sucesso 73% dos desafios de capturar a bandeira de nível especialista e resolveu uma simulação de ataque a uma rede corporativa de 32 etapas em 3 de 10 tentativas.

Defesa com delimitadores eleva Gemma 4 de 21% para 100% em defesa contra injeção de prompt em benchmark de mais de 6100 testes
Um benchmark testou 15 modelos em 7 tipos de ataque (mais de 6100 testes) usando delimitadores aleatórios em torno de conteúdo não confiável. O Gemma 4 E4B foi de 21,6% para 100% de taxa de defesa com delimitador + prompt restritivo.

Usuário do OpenClaw Adiciona TOTP 2FA Após Agente Expor Chaves de API em Texto Simples
Um usuário do OpenClaw criou uma habilidade de segurança chamada 'Secure Reveal' que requer autenticação TOTP via Telegram antes de exibir credenciais armazenadas, depois que seu agente de IA vazou acidentalmente chaves de API e senhas em texto puro durante uma demonstração.