Pali v0.1: LLM용 오픈 소스 메모리 인프라, 재현 가능한 벤치마크 포함

Pali란 무엇인가

Pali는 인프라를 우선시하는 LLM용 오픈 소스 메모리 인프라입니다. Go로 구축되어 단일 바이너리로 즉시 사용 가능하며, qdrant, neo4j, ollama, openrouter와 같은 플러그 앤 플레이 부착물에 대한 구성이 포함되어 있습니다. 이 프로젝트는 MIT 라이선스로 제공되며 완전히 자체 호스팅이 가능합니다.

주요 기능

테넌트 범위 격리를 갖춘 다중 테넌트 메모리 API
어휘적, 밀집, 융합, 재순위 및 선택적 다중 홉 확장을 통한 하이브리드 검색
메모리 우선 도구와 테넌트 인식 해결 기능을 갖춘 MCP 서버
각각 Python 및 JavaScript 패키지가 실시간으로 제공되는 REST API
운영자가 테넌트, 메모리 및 시스템 상태를 검사할 수 있는 대시보드
벡터 저장소, 임베더, 엔터티-팩트 백엔드 및 점수 매기기/라우팅을 위한 플러그 앤 플레이 확장 지점

벤치마크 접근 방식

창작자는 재현 가능한 접근 방식을 구현하여 메모리 스택 벤치마크의 일반적인 문제를 해결합니다:

모든 실행은 사용된 정확한 구성 파일(프로필 + 렌더링됨)을 저장합니다
하드웨어가 완전히 공개됩니다(CPU, GPU, RAM, 모델 버전)
쌍 비교만 수행 — 모든 프로필에서 동일한 고정 장치/평가/top_k 사용
속도 레인과 검색 품질 레인은 별도로 유지됩니다

성능 수치

Ryzen 9 7950X + RTX 5070에서 테스트한 벤치마크:

sqlite + 어휘적: 208 저장 작업/초, Top1=0.32, Recall@5=0.54
qdrant + ollama (all-minilm): 98 저장 작업/초, Top1=0.34, Recall@5=0.52
파서+그래프(구조화된 메모리 스트레스 레인): 2.4 저장 작업/초 — 구조화된 추출 비용으로 인해 느리지만, LoCoMo에서는 평균 약 30, 일시적 최고치는 약 40 정도 기록

중요한 설명

Pali는 SaaS 의미에서의 LLM 메모리가 아닙니다. 이는 검은 상자 점수 매기기나 잠긴 제공자 결정 없이 자체 워크플로우에 최적화된 원시 검색 결과를 반환합니다. 앱 계약을 변경하지 않고 구성을 통해 벡터 백엔드, 임베더 및 점수 매기기 도구를 교체할 수 있습니다.