RAG 공격 실험: ChromaDB+LM Studio 방어 성공률 95%

이것이 무엇인가

Aminrj Labs가 완전히 로컬에서 소비자용 하드웨어에서 실행되는 오픈소스 RAG 공격 및 방어 연구실을 공개했습니다. 이 연구실은 특히 ChromaDB + LM Studio 스택을 대상으로 하며 표준 LangChain 스타일 청킹을 사용합니다. 클라우드 서비스나 API 키가 필요하지 않으며 MacBook Pro와 같은 하드웨어에서 실행됩니다.

연구실의 주요 발견

이 연구실은 기본 로컬 RAG 설정에 대한 지식 베이스 중독 효과를 측정합니다. 방어되지 않은 ChromaDB 시스템에서 중독 공격은 95%의 성공률을 달성합니다. 이 공격은 검색 레이어에서 작동하며, 탈옥, 모델 접근 또는 프롬프트 조작이 필요하지 않습니다. 모델은 의도한 대로 정확히 작동하지만 중독된 컨텍스트를 사용합니다.

기본 청킹에 대한 주목할 만한 관찰: 512-토큰 청크와 200-토큰 오버랩을 사용하면 청크 경계에 있는 문서가 두 개의 독립적인 청크로 두 번 임베딩됩니다. 이는 추가적인 정교함 없이 검색 확률을 두 배로 높이며, 대부분의 로컬 설정이 고려 없이 상속하는 설정의 부작용입니다.

가장 일반적인 방어 접근 방식인 출력 필터링은 손상이 생성 전에 발생하기 때문에 잘못된 레이어를 대상으로 합니다. 수집 시 임베딩 이상 감지는 효과적입니다: 문서를 쓰기 전에 기존 컬렉션에 대해 들어오는 문서를 점수화하면 중독 성공률을 95%에서 20%로 줄입니다.

다섯 가지 방어가 모두 활성화된 상태에서 잔여 중독 성공률은 10%입니다. 이러한 사례는 기준선과 의미적으로 충분히 가까워 어떤 레이어도 깔끔하게 잡아내지 못하며, 방어의 실용적인 한계를 나타냅니다.