Laboratorio RAG open source: ataque y defensa con ChromaDB + LM Studio

Qué es esto

Aminrj Labs lanzó un laboratorio de ataque y defensa RAG de código abierto que se ejecuta completamente local en hardware de consumo, específicamente dirigido a pilas ChromaDB + LM Studio con fragmentación estándar estilo LangChain. No se requieren servicios en la nube ni claves API—se ejecuta en hardware como un MacBook Pro.

Hallazgos clave del laboratorio

El laboratorio mide la efectividad del envenenamiento de bases de conocimiento contra configuraciones RAG locales predeterminadas. En un sistema ChromaDB sin defensas, los ataques de envenenamiento logran un 95% de éxito. El ataque opera en la capa de recuperación—no se necesita jailbreak, acceso al modelo ni manipulación de prompts. El modelo funciona exactamente como se pretende, solo con contexto envenenado.

Una observación notable sobre la fragmentación predeterminada: con fragmentos de 512 tokens y superposición de 200 tokens, un documento en un límite de fragmento se incrusta dos veces como dos fragmentos independientes. Esto duplica la probabilidad de recuperación sin sofisticación adicional, un efecto secundario de configuraciones que la mayoría de configuraciones locales heredan sin consideración.

El enfoque de defensa más común—filtrado de salida—apunta a la capa incorrecta ya que el compromiso ocurre antes de la generación. La detección de anomalías en incrustaciones durante la ingesta resulta efectiva: puntuar documentos entrantes contra la colección existente antes de escribirlos reduce el éxito del envenenamiento del 95% al 20%.

Con las cinco defensas activas, el éxito residual del envenenamiento es del 10%. Estos casos son semánticamente lo suficientemente cercanos a la línea base que ninguna capa los detecta claramente, representando el límite práctico para la defensa.

Detalles técnicos

Pila: ChromaDB + LM Studio con Qwen2.5-7B
Fragmentación: Estándar estilo LangChain con fragmentos de 512 tokens y superposición de 200 tokens
Éxito del ataque en sistema sin defensas: 95%
Efectividad de defensa con detección de anomalías en incrustaciones: Reduce el envenenamiento al 20%
Envenenamiento residual con todas las defensas: 10%

El repositorio contiene la implementación del ataque, versión reforzada y mediciones para cada capa de defensa.

📖 Read the full source: r/LocalLLaMA

Laboratorio de ataque y defensa RAG de código abierto para pilas locales de ChromaDB + LM Studio

Qué es esto

Hallazgos clave del laboratorio

Detalles técnicos

👀 Ver también

OpenClaw Auditoría de Seguridad Comandos de Símbolo del Sistema Informes de Vulnerabilidades en Lenguaje Sencillo

Presentamos SkillFence: El nuevo monitor en tiempo de ejecución que observa lo que realmente hacen las habilidades.

Axios 1.14.1 comprometido con malware, apunta a flujos de trabajo de desarrollo asistidos por IA.

Microsoft hackeado: malware en repositorios de GitHub ataca a usuarios de Claude y Gemini