Атака RAG: 95% успеха при отравлении ChromaDB и LM Studio

Что это такое

Aminrj Labs выпустила лабораторию для атак и защиты RAG с открытым исходным кодом, которая полностью работает локально на потребительском оборудовании, специально нацеливаясь на стеки ChromaDB + LM Studio со стандартным чанкингом в стиле LangChain. Не требуются облачные сервисы или API-ключи — она работает на оборудовании типа MacBook Pro.

Ключевые выводы из лаборатории

Лаборатория измеряет эффективность отравления базы знаний против стандартных локальных настроек RAG. На незащищённой системе ChromaDB атаки отравления достигают 95% успеха. Атака работает на уровне извлечения — не требуется взлом, доступ к модели или манипуляция промптами. Модель работает именно так, как задумано, просто с отравленным контекстом.

Одно примечательное наблюдение о стандартном чанкинге: при чанках в 512 токенов и перекрытии в 200 токенов документ на границе чанка встраивается дважды как два независимых чанка. Это удваивает вероятность извлечения без дополнительной сложности — побочный эффект настроек, которые большинство локальных установок наследует без размышлений.

Самый распространённый подход защиты — фильтрация вывода — нацелен не на тот слой, поскольку компрометация происходит до генерации. Обнаружение аномалий эмбеддингов на этапе индексирования оказывается эффективным: оценка входящих документов относительно существующей коллекции перед их записью снижает успех отравления с 95% до 20%.

При активных всех пяти защитах остаточный успех отравления составляет 10%. Эти случаи семантически достаточно близки к базовым, чтобы ни один слой не смог их чисто отловить, что представляет практический предел для защиты.

Технические детали

Стек: ChromaDB + LM Studio с Qwen2.5-7B
Чанкинг: Стандартный в стиле LangChain с чанками в 512 токенов и перекрытием в 200 токенов
Успех атаки на незащищённой системе: 95%
Эффективность защиты с обнаружением аномалий эмбеддингов: Снижает отравление до 20%
Остаточное отравление при всех защитах: 10%

Репозиторий содержит реализацию атаки, усиленную версию и измерения для каждого слоя защиты.

📖 Read the full source: r/LocalLLaMA

Лаборатория для атаки и защиты RAG с открытым исходным кодом для локальных стеков ChromaDB + LM Studio

Что это такое

Ключевые выводы из лаборатории

Технические детали

👀 Смотрите также

Microsoft с открытым исходным кодом взломаны: вредоносное ПО для кражи паролей атакует репозитории AI-разработчиков

Вредоносная реклама Google нацелена на установку кода Claude

Клод Код обнаруживает 23-летнюю уязвимость в ядре Linux

Атака FlyTrap использует "враждебные зонтики" для компрометации автономных дронов на основе камер.