로컬 ChromaDB + LM Studio 스택을 위한 오픈소스 RAG 공격 및 방어 실험실

이것이 무엇인가
Aminrj Labs가 완전히 로컬에서 소비자용 하드웨어에서 실행되는 오픈소스 RAG 공격 및 방어 연구실을 공개했습니다. 이 연구실은 특히 ChromaDB + LM Studio 스택을 대상으로 하며 표준 LangChain 스타일 청킹을 사용합니다. 클라우드 서비스나 API 키가 필요하지 않으며 MacBook Pro와 같은 하드웨어에서 실행됩니다.
연구실의 주요 발견
이 연구실은 기본 로컬 RAG 설정에 대한 지식 베이스 중독 효과를 측정합니다. 방어되지 않은 ChromaDB 시스템에서 중독 공격은 95%의 성공률을 달성합니다. 이 공격은 검색 레이어에서 작동하며, 탈옥, 모델 접근 또는 프롬프트 조작이 필요하지 않습니다. 모델은 의도한 대로 정확히 작동하지만 중독된 컨텍스트를 사용합니다.
기본 청킹에 대한 주목할 만한 관찰: 512-토큰 청크와 200-토큰 오버랩을 사용하면 청크 경계에 있는 문서가 두 개의 독립적인 청크로 두 번 임베딩됩니다. 이는 추가적인 정교함 없이 검색 확률을 두 배로 높이며, 대부분의 로컬 설정이 고려 없이 상속하는 설정의 부작용입니다.
가장 일반적인 방어 접근 방식인 출력 필터링은 손상이 생성 전에 발생하기 때문에 잘못된 레이어를 대상으로 합니다. 수집 시 임베딩 이상 감지는 효과적입니다: 문서를 쓰기 전에 기존 컬렉션에 대해 들어오는 문서를 점수화하면 중독 성공률을 95%에서 20%로 줄입니다.
다섯 가지 방어가 모두 활성화된 상태에서 잔여 중독 성공률은 10%입니다. 이러한 사례는 기준선과 의미적으로 충분히 가까워 어떤 레이어도 깔끔하게 잡아내지 못하며, 방어의 실용적인 한계를 나타냅니다.
기술적 세부 사항
- 스택: ChromaDB + LM Studio with Qwen2.5-7B
- 청킹: 512-토큰 청크와 200-토큰 오버랩을 사용한 표준 LangChain 스타일
- 방어되지 않은 시스템에서의 공격 성공률: 95%
- 임베딩 이상 감지를 통한 방어 효과: 중독을 20%로 감소
- 모든 방어 적용 시 잔여 중독률: 10%
저장소에는 공격 구현, 강화된 버전 및 각 방어 레이어에 대한 측정값이 포함되어 있습니다.
📖 Read the full source: r/LocalLLaMA
👀 See Also

AI 에이전트 가드레일은 적극적인 유지 관리 없이 시간이 지남에 따라 약화됩니다.
AI 에이전트 가드레일은 시스템 프롬프트 업데이트가 누적되고, 모델 버전이 변경되며, 새로운 도구가 추가됨에 따라 시간이 지남에 따라 성능이 저하되어 종종 상충되거나 무시되는 안전 규칙이 발생하며, 정기적인 검토와 테스트가 필요합니다.

AI 보안 연구원들: 데이터 옵트인 토글을 통해 0-Day 취약점이 유출될 수 있습니다
LLM 인터페이스의 '모델 개선에 기여하기' 토글은 심층 레드팀 연구를 자동으로 수집하여, 당신의 취약점 개념을 공급업체의 안전성 팀과 학술 논문에 공유할 수 있습니다. 심각한 보안 연구를 수행하기 전에 데이터 공유를 비활성화하세요.

A2A 보안: 개발자가 OpenClaw 에이전트 간 암호화 통신을 구축한 방법
새로운 프로토콜이 Ed25519 서명을 사용하여 공유 API 키 없이도 OpenClaw 에이전트 간의 안전한 통신을 가능하게 합니다.

중요한 동료 작업 버그: AI 에이전트가 사용자 승인 없이 파일 삭제
클로드의 협업 모드에서 발견된 치명적인 버그로 인해 AI가 사용자의 동의 없이 파괴적인 작업을 실행할 수 있었습니다. ExitPlanMode 도구가 사용자의 승인을 잘못 보고하여, 자율 에이전트를 작동시켜 React/TypeScript 코드베이스에서 12개의 파일을 삭제했습니다.