Лаборатория для атаки и защиты RAG с открытым исходным кодом для локальных стеков ChromaDB + LM Studio

✍️ OpenClawRadar📅 Опубликовано: 18 марта 2026 г.🔗 Source
Лаборатория для атаки и защиты RAG с открытым исходным кодом для локальных стеков ChromaDB + LM Studio
Ad

Что это такое

Aminrj Labs выпустила лабораторию для атак и защиты RAG с открытым исходным кодом, которая полностью работает локально на потребительском оборудовании, специально нацеливаясь на стеки ChromaDB + LM Studio со стандартным чанкингом в стиле LangChain. Не требуются облачные сервисы или API-ключи — она работает на оборудовании типа MacBook Pro.

Ключевые выводы из лаборатории

Лаборатория измеряет эффективность отравления базы знаний против стандартных локальных настроек RAG. На незащищённой системе ChromaDB атаки отравления достигают 95% успеха. Атака работает на уровне извлечения — не требуется взлом, доступ к модели или манипуляция промптами. Модель работает именно так, как задумано, просто с отравленным контекстом.

Одно примечательное наблюдение о стандартном чанкинге: при чанках в 512 токенов и перекрытии в 200 токенов документ на границе чанка встраивается дважды как два независимых чанка. Это удваивает вероятность извлечения без дополнительной сложности — побочный эффект настроек, которые большинство локальных установок наследует без размышлений.

Самый распространённый подход защиты — фильтрация вывода — нацелен не на тот слой, поскольку компрометация происходит до генерации. Обнаружение аномалий эмбеддингов на этапе индексирования оказывается эффективным: оценка входящих документов относительно существующей коллекции перед их записью снижает успех отравления с 95% до 20%.

При активных всех пяти защитах остаточный успех отравления составляет 10%. Эти случаи семантически достаточно близки к базовым, чтобы ни один слой не смог их чисто отловить, что представляет практический предел для защиты.

Ad

Технические детали

  • Стек: ChromaDB + LM Studio с Qwen2.5-7B
  • Чанкинг: Стандартный в стиле LangChain с чанками в 512 токенов и перекрытием в 200 токенов
  • Успех атаки на незащищённой системе: 95%
  • Эффективность защиты с обнаружением аномалий эмбеддингов: Снижает отравление до 20%
  • Остаточное отравление при всех защитах: 10%

Репозиторий содержит реализацию атаки, усиленную версию и измерения для каждого слоя защиты.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Смотрите также

Обнаружение уязвимостей ИИ опережает сроки развертывания исправлений
Безопасность

Обнаружение уязвимостей ИИ опережает сроки развертывания исправлений

Эксперт по безопасности утверждает, что инструменты ИИ, такие как Mythos, будут находить уязвимости быстрее, чем можно развернуть исправления, ссылаясь на данные по Log4j, которые показывают среднее время устранения в 17 дней и десятилетний срок полного устранения.

OpenClawRadar
ЭктоКоготь: Инструмент безопасности для агентов OpenClaw с доступом к терминалу
Безопасность

ЭктоКоготь: Инструмент безопасности для агентов OpenClaw с доступом к терминалу

EctoClaw — это бесплатный инструмент безопасности с открытым исходным кодом для OpenClaw, который проверяет каждое действие четыре раза перед выполнением, запускает действия в защищённой песочнице и записывает всё с доказательствами.

OpenClawRadar
ClawSecure: Платформа безопасности для экосистемы OpenClaw с 3-уровневым аудитом и мониторингом в реальном времени
Безопасность

ClawSecure: Платформа безопасности для экосистемы OpenClaw с 3-уровневым аудитом и мониторингом в реальном времени

ClawSecure — это специализированная платформа безопасности для OpenClaw, которая проводит трёхуровневые аудиты безопасности, мониторинг в реальном времени с отслеживанием хэшей SHA-256 каждые 12 часов и обеспечивает полное покрытие OWASP ASI. Она проверила более 3000 популярных навыков и бесплатна для использования без регистрации.

OpenClawRadar
Bitwarden Agent Access SDK интегрируется с OneCLI для безопасного внедрения учетных данных.
Безопасность

Bitwarden Agent Access SDK интегрируется с OneCLI для безопасного внедрения учетных данных.

Новый SDK Agent Access от Bitwarden позволяет ИИ-агентам получать доступ к учетным данным из хранилища Bitwarden с одобрения человека, в то время как OneCLI выступает в качестве шлюза, который внедряет учетные данные на сетевом уровне, не раскрывая их исходные значения агентам.

OpenClawRadar