프롬프트포레스트: 불확실성을 활용한 로컬 퍼스트 프롬프트 인젝션 탐지

PromptForest는 현재의 프롬프트 인젝션 감지기에서 흔히 볼 수 있는 문제들을 해결하기 위해 만들어진 새로운 로컬-퍼스트 라이브러리입니다. 이는 프롬프트 인젝션과 탈옥을 효율적으로 감지하고, 결과에 대한 과도한 확신을 피하기 위해 불확실성 측정을 제공하는 것을 목표로 합니다. 이 접근 방식은 특히 성능을 유지하면서도 더 세분화된 출력을 제공함으로써 전통적인 시스템과 차별화됩니다.
주요 세부 사항
기존 인젝션 감지기의 근본적인 문제 중 하나는 Llama 2 8B와 Qualifire Sentinel 0.6B와 같은 대형 모델에 의존한다는 점입니다. 이러한 모델들은 느릴 뿐만 아니라, 결과에 대한 과도한 확신으로 인해 생산 환경에서 신뢰성을 훼손하는 오탐(false positives)을 초래할 수 있습니다. 이러한 한계를 인식하고, PromptForest는 세 개의 더 작고 전문적인 모델로 구성된 투표 앙상블 방식을 활용합니다:
- Llama Prompt Guard (86M): 해당 가중치 등급에서 가장 높은 사전 앙상블 예상 보정 오차(ECE)를 제공합니다.
- Vijil Dome (ModernBERT): 매개변수당 가장 높은 정확도를 제공합니다.
- Custom XGBoost: 아키텍처 다양성을 위해 임베딩에 대해 훈련되었습니다.
이 모델들은 집단적으로 가중치가 부여된 소프트 투표 방식을 사용하여 결과를 결정하며, 더 정확한 모델이 더 큰 영향력을 가집니다. 이 방식은 높은 정확도와 일관성을 유지하면서 의사 결정을 단순화합니다.
벤치마킹 결과, PromptForest는 평균 지연 시간이 ~141ms로, Qualifire Sentinel v2의 ~225ms에 비해 성능이 우수하며, 그들의 97%에 비해 90%의 비슷한 정확도를 제공합니다. 보정 ECE도 Sentinel의 0.096에 비해 0.070으로 우수한 성과를 보입니다. 처리량도 인상적이며, pfranger CLI를 사용하여 소비자 GPU에서 초당 약 27개의 프롬프트를 처리합니다.
테스트와 구현을 위해, 개발자들은 Google Colab에서 PromptForest를 실험하거나 완전히 로컬에서 작동하는 PFRanger 도구로 프롬프트를 감사할 수 있습니다. PFRanger는 병렬화를 활용하여 속도와 처리량을 향상시킵니다.
📖 전체 소스 읽기: r/LocalLLaMA
👀 See Also

클로드봇, 프로 구독으로 새로운 기능 공개
Clawdbot은 코딩 환경에서 자동화의 잠재력을 극대화하려는 사용자를 위해 향상된 기능을 제공하는 'Pro' 구독을 소개합니다. 최신 기능과 r/clawdbot 커뮤니티의 인사이트를 살펴보세요.

SoulPrint: Claude와 ChatGPT 기록을 함께 검색하는 로컬 도구
SoulPrint은 Claude(.json)와 ChatGPT(.zip)의 대화 내보내기 파일을 로컬 SQLite 아카이브로 가져오는 오픈소스 Python 도구로, BM25 순위 지정 및 강조 표시된 스니펫을 통해 두 제공자의 데이터를 동시에 전체 텍스트 검색할 수 있게 합니다.

Claude Code Routines, CLI 성능을 20개 이상의 PR에서 2.4배 향상
Claude Code의 Routines를 2시간 주기로 사용하여 오픈소스 CLI(Repomix)를 자율적으로 튜닝한 결과, 20개 이상의 자동 생성 PR과 2.4배의 런타임 개선이 이루어졌습니다.

로컬 MCP 서버, 클로드를 클라우드나 토큰 없이 Mac 앱에 연결합니다
Local MCP는 macOS용 네이티브 MCP 서버로, 클라우드 처리나 API 토큰 없이 Mac의 Mail, Calendar, Teams, OneDrive 데이터에 Claude Desktop, Cursor, Windsurf, VS Code가 접근할 수 있게 해줍니다.