Laboratorio de ataque y defensa RAG de código abierto para pilas locales de ChromaDB + LM Studio

✍️ OpenClawRadar📅 Publicado: 18 de marzo de 2026🔗 Source
Laboratorio de ataque y defensa RAG de código abierto para pilas locales de ChromaDB + LM Studio
Ad

Qué es esto

Aminrj Labs lanzó un laboratorio de ataque y defensa RAG de código abierto que se ejecuta completamente local en hardware de consumo, específicamente dirigido a pilas ChromaDB + LM Studio con fragmentación estándar estilo LangChain. No se requieren servicios en la nube ni claves API—se ejecuta en hardware como un MacBook Pro.

Hallazgos clave del laboratorio

El laboratorio mide la efectividad del envenenamiento de bases de conocimiento contra configuraciones RAG locales predeterminadas. En un sistema ChromaDB sin defensas, los ataques de envenenamiento logran un 95% de éxito. El ataque opera en la capa de recuperación—no se necesita jailbreak, acceso al modelo ni manipulación de prompts. El modelo funciona exactamente como se pretende, solo con contexto envenenado.

Una observación notable sobre la fragmentación predeterminada: con fragmentos de 512 tokens y superposición de 200 tokens, un documento en un límite de fragmento se incrusta dos veces como dos fragmentos independientes. Esto duplica la probabilidad de recuperación sin sofisticación adicional, un efecto secundario de configuraciones que la mayoría de configuraciones locales heredan sin consideración.

El enfoque de defensa más común—filtrado de salida—apunta a la capa incorrecta ya que el compromiso ocurre antes de la generación. La detección de anomalías en incrustaciones durante la ingesta resulta efectiva: puntuar documentos entrantes contra la colección existente antes de escribirlos reduce el éxito del envenenamiento del 95% al 20%.

Con las cinco defensas activas, el éxito residual del envenenamiento es del 10%. Estos casos son semánticamente lo suficientemente cercanos a la línea base que ninguna capa los detecta claramente, representando el límite práctico para la defensa.

Ad

Detalles técnicos

  • Pila: ChromaDB + LM Studio con Qwen2.5-7B
  • Fragmentación: Estándar estilo LangChain con fragmentos de 512 tokens y superposición de 200 tokens
  • Éxito del ataque en sistema sin defensas: 95%
  • Efectividad de defensa con detección de anomalías en incrustaciones: Reduce el envenenamiento al 20%
  • Envenenamiento residual con todas las defensas: 10%

El repositorio contiene la implementación del ataque, versión reforzada y mediciones para cada capa de defensa.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Ver también

Anthropic informa sobre ataques de destilación a escala industrial por parte de laboratorios chinos de IA contra Claude.
Seguridad

Anthropic informa sobre ataques de destilación a escala industrial por parte de laboratorios chinos de IA contra Claude.

Anthropic detectó que tres empresas chinas de IA—DeepSeek, Moonshot y MiniMax—crearon más de 24,000 cuentas fraudulentas para generar más de 16 millones de intercambios con Claude, extrayendo sus capacidades de razonamiento mediante ataques de destilación sistemáticos.

OpenClawRadar
Nullgaze: Se lanza un escáner de seguridad respaldado por IA de código abierto.
Seguridad

Nullgaze: Se lanza un escáner de seguridad respaldado por IA de código abierto.

Nullgaze es un nuevo escáner de seguridad de código abierto respaldado por IA que detecta vulnerabilidades específicas del código generado por IA, con casi cero falsos positivos.

OpenClawRadar
El Agente de IA de CodeWall Descubre Vulnerabilidades Críticas en la Plataforma Lilli de McKinsey
Seguridad

El Agente de IA de CodeWall Descubre Vulnerabilidades Críticas en la Plataforma Lilli de McKinsey

El agente de IA ofensiva autónoma de CodeWall obtuvo acceso completo de lectura/escritura a la base de datos interna de la plataforma Lilli AI de McKinsey en menos de 2 horas, exponiendo 46.5 millones de mensajes de chat, 728,000 archivos y configuraciones sensibles del sistema mediante vulnerabilidades de inyección SQL e IDOR.

OpenClawRadar
SCION: La alternativa segura de Suiza al protocolo de enrutamiento BGP
Seguridad

SCION: La alternativa segura de Suiza al protocolo de enrutamiento BGP

SCION (Escalabilidad, Control y Aislamiento en Redes de Próxima Generación) es una arquitectura de enrutamiento de internet desarrollada en ETH Zúrich que reemplaza los fundamentos de BGP con seguridad integrada y enrutamiento multipath. A diferencia de los parches de BGP como RPKI y BGPsec, SCION establece decenas o cientos de rutas paralelas con reconexión en milisegundos cuando ocurren fallos.

OpenClawRadar