Laboratório RAG Open Source: Ataque e Defesa com ChromaDB e LM Studio

O que é isso

A Aminrj Labs lançou um laboratório de ataque e defesa RAG de código aberto que roda totalmente local em hardware de consumo, especificamente visando pilhas ChromaDB + LM Studio com chunking padrão estilo LangChain. Nenhum serviço de nuvem ou chave de API é necessário—ele roda em hardware como um MacBook Pro.

Principais descobertas do laboratório

O laboratório mede a eficácia do envenenamento de base de conhecimento contra configurações RAG locais padrão. Em um sistema ChromaDB desprotegido, ataques de envenenamento alcançam 95% de sucesso. O atua na camada de recuperação—nenhum jailbreak, acesso ao modelo ou manipulação de prompt é necessário. O modelo executa exatamente como pretendido, apenas com contexto envenenado.

Uma observação notável sobre o chunking padrão: com chunks de 512 tokens e sobreposição de 200 tokens, um documento em um limite de chunk é incorporado duas vezes como dois chunks independentes. Isso dobra a probabilidade de recuperação sem sofisticação adicional, um efeito colateral de configurações que a maioria das instalações locais herda sem consideração.

A abordagem de defesa mais comum—filtragem de saída—visa a camada errada, já que o comprometimento ocorre antes da geração. Detecção de anomalias de incorporação na ingestão se mostra eficaz: pontuar documentos recebidos contra a coleção existente antes de gravá-los reduz o sucesso de envenenamento de 95% para 20%.

Com todas as cinco defesas ativas, o sucesso residual de envenenamento é 10%. Esses casos são semanticamente próximos o suficiente da linha de base que nenhuma camada os captura claramente, representando o limite prático para defesa.

Detalhes técnicos

Pilha: ChromaDB + LM Studio com Qwen2.5-7B
Chunking: Padrão estilo LangChain com chunks de 512 tokens e sobreposição de 200 tokens
Sucesso do ataque em sistema desprotegido: 95%
Eficácia da defesa com detecção de anomalias de incorporação: Reduz envenenamento para 20%
Envenenamento residual com todas as defesas: 10%

O repositório contém a implementação do ataque, versão reforçada e medições para cada camada de defesa.

📖 Read the full source: r/LocalLLaMA