프롬프트 인젝션 탐지: PromptForest 로컬 퍼스트 라이브러리

PromptForest는 현재의 프롬프트 인젝션 감지기에서 흔히 볼 수 있는 문제들을 해결하기 위해 만들어진 새로운 로컬-퍼스트 라이브러리입니다. 이는 프롬프트 인젝션과 탈옥을 효율적으로 감지하고, 결과에 대한 과도한 확신을 피하기 위해 불확실성 측정을 제공하는 것을 목표로 합니다. 이 접근 방식은 특히 성능을 유지하면서도 더 세분화된 출력을 제공함으로써 전통적인 시스템과 차별화됩니다.

주요 세부 사항

기존 인젝션 감지기의 근본적인 문제 중 하나는 Llama 2 8B와 Qualifire Sentinel 0.6B와 같은 대형 모델에 의존한다는 점입니다. 이러한 모델들은 느릴 뿐만 아니라, 결과에 대한 과도한 확신으로 인해 생산 환경에서 신뢰성을 훼손하는 오탐(false positives)을 초래할 수 있습니다. 이러한 한계를 인식하고, PromptForest는 세 개의 더 작고 전문적인 모델로 구성된 투표 앙상블 방식을 활용합니다:

Llama Prompt Guard (86M): 해당 가중치 등급에서 가장 높은 사전 앙상블 예상 보정 오차(ECE)를 제공합니다.
Vijil Dome (ModernBERT): 매개변수당 가장 높은 정확도를 제공합니다.
Custom XGBoost: 아키텍처 다양성을 위해 임베딩에 대해 훈련되었습니다.

이 모델들은 집단적으로 가중치가 부여된 소프트 투표 방식을 사용하여 결과를 결정하며, 더 정확한 모델이 더 큰 영향력을 가집니다. 이 방식은 높은 정확도와 일관성을 유지하면서 의사 결정을 단순화합니다.

벤치마킹 결과, PromptForest는 평균 지연 시간이 ~141ms로, Qualifire Sentinel v2의 ~225ms에 비해 성능이 우수하며, 그들의 97%에 비해 90%의 비슷한 정확도를 제공합니다. 보정 ECE도 Sentinel의 0.096에 비해 0.070으로 우수한 성과를 보입니다. 처리량도 인상적이며, pfranger CLI를 사용하여 소비자 GPU에서 초당 약 27개의 프롬프트를 처리합니다.

테스트와 구현을 위해, 개발자들은 Google Colab에서 PromptForest를 실험하거나 완전히 로컬에서 작동하는 PFRanger 도구로 프롬프트를 감사할 수 있습니다. PFRanger는 병렬화를 활용하여 속도와 처리량을 향상시킵니다.

📖 전체 소스 읽기: r/LocalLLaMA

프롬프트포레스트: 불확실성을 활용한 로컬 퍼스트 프롬프트 인젝션 탐지

주요 세부 사항

👀 See Also

Anthropic의 llama.cpp 기반 자연어 오토인코더를 위한 UI 및 서버

솔리테르: 클로드 코드로 구축된 AI 에이전트용 오픈 소스 신원 계층

팬텀: 클로드의 에이전트 SDK로 구축된 지속형 AI 에이전트

SIDJUA 프레임워크, 자율 AI 에이전트에 거버넌스 레이어 추가