Scanner de Injeção de Prompt de Modelo Local para Segurança de Habilidades de IA

✍️ OpenClawRadar📅 Publicado: March 20, 2026🔗 Source

Vulnerabilidade de Segurança em Habilidades de IA

Uma discussão no X destacou uma falha de segurança grave em habilidades de IA de terceiros. O Claude Code suporta o operador ! para executar comandos bash diretamente dentro das habilidades, mas esses operadores podem ser ocultados em tags HTML, levando a execuções bash das quais o LLM pode não estar ciente.

Implementação do Scanner Local

Uma ferramenta de prova de conceito foi construída para varrer habilidades em busca de possíveis injeções de malware no momento da instalação. O scanner usa um modelo sem chamada de ferramentas executado localmente, especificamente mistral-small:latest no Ollama. O criador relata que "funcionou perfeitamente" durante os testes.

A abordagem funciona de maneira semelhante a um antivírus e poderia ser integrada em um futuro produto "instalador de habilidades". A proteção contra injeção de prompt é identificada como uma aplicação promissora para modelos locais.

Detalhes Técnicos

A vulnerabilidade envolve o operador ! no Claude Code que permite a execução direta de comandos bash. Ataques podem ocultar esses operadores dentro de tags HTML, potencialmente executando comandos maliciosos sem o conhecimento do LLM. O scanner aborda isso analisando as habilidades antes da instalação para detectar tais injeções ocultas.

📖 Leia a fonte completa: r/LocalLLaMA

👀 See Also

Security

Segurança da Chave API OpenClaw: O Que Você Precisa Saber sobre Hospedagem Gerenciada e TEE

Uma publicação no Reddit detalha os riscos de entregar sua chave da API da Anthropic a um host gerenciado do OpenClaw e explica como o TEE (Intel TDX) pode isolar chaves no nível de hardware.

Apr 30, 2026, 04:20 AM UTC

OpenClawRadar

🦀

Security

Análise Estática de 48 Aplicativos Gerados por IA: 90% Apresentavam Vulnerabilidades de Segurança

Um desenvolvedor analisou 48 repositórios públicos do GitHub criados com Lovable, Bolt e Replit. 90% tinham pelo menos uma vulnerabilidade. Problemas comuns: falhas de autenticação (44%), funções Postgres SECURITY DEFINER (33%), BOLA/IDOR (25%) e segredos commitados (25%).

May 13, 2026, 12:15 PM UTC

OpenClawRadar

Security

Instâncias não seguras do Paperclip expondo painéis ao vivo via Pesquisa Google

Um usuário do Reddit descobriu um painel do Paperclip em funcionamento com dados organizacionais completos indexados pelo Google após pesquisar por um erro. A instância estava publicamente exposta sem autenticação, revelando organogramas, conversas de agentes, atribuições de tarefas e planos de negócios.

Apr 14, 2026, 08:45 PM UTC

OpenClawRadar

Security

Alerta de Segurança para Instâncias Locais do OpenClaw Sem Sandboxing

Uma postagem no Reddit alerta que executar instâncias vanilla do OpenClaw localmente sem o isolamento adequado pode levar à exposição de chaves de API, exclusão acidental de arquivos e vazamento de dados. A fonte recomenda colocar ferramentas bash em sandbox ou usar um serviço gerenciado.

Mar 13, 2026, 05:45 AM UTC

OpenClawRadar