Repositório do GitHub documenta 16 técnicas de injeção de prompt e estratégias de defesa para chats públicos de IA

✍️ OpenClawRadar📅 Publicado: March 10, 2026🔗 Source

Um desenvolvedor construiu um chat de IA personalizado em seu site como experimento e encontrou múltiplos desafios de segurança quando usuários reais tentaram quebrá-lo. A experiência levou à criação de um guia de segurança abrangente disponível no GitHub.

Desafios de segurança encontrados

Usuários tentaram vários ataques incluindo:

Injeção de prompt
Ataques de roleplay
Truques multilingues
Payloads codificados em base64

Estratégias de defesa implementadas

O desenvolvedor documentou uma abordagem de defesa em profundidade cobrindo:

Saneamento de entrada
Limitação de taxa
Design de prompt do sistema de confiança zero
Controles de saída
Limites de custo

Conteúdo do repositório GitHub

O repositório inclui:

Uma análise de 16 técnicas de injeção de prompt
Uma habilidade de código Claude que testa automaticamente todas as 16 técnicas contra seu chatbot
Detalhes completos de implementação de defesa

O desenvolvedor observa que os usuários tentaram coisas que ele "nunca teria pensado em testar" e que o guia pretende ser útil para qualquer pessoa implementando sistemas de chat de IA públicos similares.

📖 Leia a fonte completa: r/ClaudeAI

👀 See Also

Security

Lacuna de Segurança em Agentes de IA: Como o Supra-Wall Adiciona uma Camada de Aplicação Entre Modelos e Ferramentas

Um desenvolvedor descobriu que seu agente de IA leu autonomamente arquivos .env confidenciais contendo chaves do Stripe, senhas de banco de dados e chaves de API da OpenAI. A ferramenta de código aberto Supra-Wall intercepta chamadas de ferramentas antes da execução para impor políticas de segurança.

Apr 1, 2026, 10:45 AM UTC

OpenClawRadar

Security

Apps Construídos por IA São Frágeis: Por Que Pequenas Mudanças Quebram o Isolamento de Dados e Permissões

Desenvolvedores relatam que aplicativos gerados por IA (via Claude Code, Cursor) quebram silenciosamente login, permissões e isolamento de dados quando pequenas alterações são feitas, porque os modelos de IA não compreendem a intenção original do sistema, como regras de propriedade.

May 6, 2026, 10:17 AM UTC

OpenClawRadar

Security

Endo Familiar: Sandbox de Capacidade de Objetos para Agentes de IA

Endo Familiar implementa segurança de object-capability para agentes de IA: agentes começam com zero autoridade ambiente, recebem apenas referências explícitas a arquivos ou diretórios específicos e podem derivar capacidades mais restritas em código em sandbox.

Apr 24, 2026, 02:16 AM UTC

OpenClawRadar

Security

Injeção de Autoridade de Ferramentas em Agentes LLM: Quando a Saída da Ferramenta Sobrepõe a Intenção do Sistema

Um pesquisador demonstra 'Injeção de Autoridade de Ferramenta' em um laboratório local de agentes LLM, mostrando como a saída confiável de ferramentas pode ser elevada ao nível de autoridade de política, alterando silenciosamente o comportamento do agente enquanto a sandbox e o acesso a arquivos permanecem seguros.

Mar 7, 2026, 03:45 PM UTC

OpenClawRadar