Laboratório de ataque e defesa RAG de código aberto para stacks locais ChromaDB + LM Studio

O que é isso
A Aminrj Labs lançou um laboratório de ataque e defesa RAG de código aberto que roda totalmente local em hardware de consumo, especificamente visando pilhas ChromaDB + LM Studio com chunking padrão estilo LangChain. Nenhum serviço de nuvem ou chave de API é necessário—ele roda em hardware como um MacBook Pro.
Principais descobertas do laboratório
O laboratório mede a eficácia do envenenamento de base de conhecimento contra configurações RAG locais padrão. Em um sistema ChromaDB desprotegido, ataques de envenenamento alcançam 95% de sucesso. O atua na camada de recuperação—nenhum jailbreak, acesso ao modelo ou manipulação de prompt é necessário. O modelo executa exatamente como pretendido, apenas com contexto envenenado.
Uma observação notável sobre o chunking padrão: com chunks de 512 tokens e sobreposição de 200 tokens, um documento em um limite de chunk é incorporado duas vezes como dois chunks independentes. Isso dobra a probabilidade de recuperação sem sofisticação adicional, um efeito colateral de configurações que a maioria das instalações locais herda sem consideração.
A abordagem de defesa mais comum—filtragem de saída—visa a camada errada, já que o comprometimento ocorre antes da geração. Detecção de anomalias de incorporação na ingestão se mostra eficaz: pontuar documentos recebidos contra a coleção existente antes de gravá-los reduz o sucesso de envenenamento de 95% para 20%.
Com todas as cinco defesas ativas, o sucesso residual de envenenamento é 10%. Esses casos são semanticamente próximos o suficiente da linha de base que nenhuma camada os captura claramente, representando o limite prático para defesa.
Detalhes técnicos
- Pilha: ChromaDB + LM Studio com Qwen2.5-7B
- Chunking: Padrão estilo LangChain com chunks de 512 tokens e sobreposição de 200 tokens
- Sucesso do ataque em sistema desprotegido: 95%
- Eficácia da defesa com detecção de anomalias de incorporação: Reduz envenenamento para 20%
- Envenenamento residual com todas as defesas: 10%
O repositório contém a implementação do ataque, versão reforçada e medições para cada camada de defesa.
📖 Read the full source: r/LocalLLaMA
👀 See Also

OpenClaw Corrige Escalação Crítica de Privilégios no Caminho /pair Approve
OpenClaw 2026.3.28 corrige uma vulnerabilidade crítica de segurança (GHSA-hc5h-pmr3-3497) onde o comando /pair approve permitia que usuários com privilégios de emparelhamento aprovassem solicitações de dispositivos para escopos mais amplos, incluindo acesso de administrador. As versões afetadas são <= 2026.3.24.

OpenClaw's External Content Wrapper for Prompt Injection Defense
O OpenClaw usa um wrapper de conteúdo externo que automaticamente marca os resultados de buscas na web, respostas de API e conteúdos similares com avisos de que são não confiáveis, preparando o LLM para ser cético e mais propenso a recusar instruções maliciosas.

Sandboxing OpenClaw: Aprimorando a Segurança na Codificação de IA
Descubra as discussões mais recentes da comunidade OpenClaw sobre sandboxing, uma técnica crítica para proteger agentes de codificação de IA. Explore por que os usuários acreditam que ela é essencial para salvaguardar as inovações em IA.

Scanner de Injeção de Prompt de Modelo Local para Segurança de Habilidades de IA
Uma ferramenta de prova de conceito varre habilidades de IA de terceiros em busca de injeções ocultas de comandos bash usando um modelo local sem chamada de ferramentas como mistral-small:latest no Ollama, abordando vulnerabilidades de segurança no recurso do operador ! do Claude Code.