llmLibrarian: 파일 기반 AI 검색을 위한 MCP 통합 로컬 RAG 엔진

이것이 무엇인가요
llmLibrarian은 Model Context Protocol(MCP)을 통해 검색 기능을 노출하는 로컬 RAG(검색 증강 생성) 엔진입니다. 폴더를 실로(ChromaDB 컬렉션)로 인덱싱한 다음, Claude를 포함한 모든 MCP 클라이언트에서 쿼리하여 근거가 있고 인용된 답변을 얻을 수 있게 합니다.
주요 기능 및 아키텍처
이 도구는 폴더를 ChromaDB 컬렉션인 실로로 인덱싱합니다. 원시 청크 대신 직접적인 답변을 원할 때는 Ollama가 합성 계층을 처리합니다. 모든 것은 사용자의 기기에서 로컬로 실행됩니다.
개발자는 특히 다중 실로 기능을 강력하게 강조합니다: 실로를 결합하면 수동으로 파악하기 어려운 도메인 간 패턴이 표면화될 수 있습니다. 예를 들어, 저널 폴더는 사용자가 작성한 내용을 기억하는 사고 파트너가 되고, 코드베이스는 사용자의 실제 파일을 아는 에이전트가 됩니다.
노출된 MCP 도구
retrieve— Claude가 추론할 수 있도록 신뢰도 점수와 함께 원시 청크를 반환하는 하이브리드 RRF 벡터 검색retrieve_bulk— 문서 유형 간 집계 시 유용한 단일 호출 내 다중 각도 쿼리ask— 검색된 컨텍스트에서 직접 Ollama로 합성된 답변(기본값은 llama3.1:8b이지만, 사용자가 가져온 어떤 모델로든 교체 가능)list_silos,inspect_silo,trigger_reindex— 인덱스 관리 도구
기술 스택
- 벡터 저장을 위한 ChromaDB
- 모델 합성을 위한 Ollama
- 임베딩을 위한 sentence-transformers(all-mpnet-base-v2, MPS 가속)
- MCP 계층을 위한 fastmcp
개발자는 ChromaDB의 다중 실로 메타데이터 태깅이 올바르게 설정되기까지 여러 번의 반복이 필요했으며, 아키텍처에 대한 논의에 열려 있다고 언급합니다.
이러한 유형의 도구는 데이터를 외부 서비스로 전송하지 않고 로컬 파일을 참조하고 추론할 수 있는 AI 에이전트를 구축하려는 개발자에게 유용합니다.
📖 전체 Source 읽기: r/LocalLLaMA
👀 See Also

OpenClaw Nerve WebUI는 음성 제어 및 팀 관리 대시보드를 추가합니다.
Nerve는 OpenClaw를 위한 WebUI로, Whisper를 통한 더블탭 시프트 음성 제어 및 서브 에이전트 팀 빌딩 기능을 갖춘 AI 에이전트 모니터링 및 관리를 위한 올인원 대시보드를 제공합니다.

오픈소스 MCP 서버가 Claude Desktop에 내장 세션 메모리 기능을 추가합니다
개발자가 Claude Desktop 코딩 세션 간에 컨텍스트를 보존하기 위해 통합 세션 메모리를 갖춘 TypeScript MCP 서버를 구축하여 별도의 메모리 인프라가 필요하지 않게 했습니다. 이 서버에는 세션 저장/로드 기능과 Brave 검색 및 Google Gemini 통합과 같은 추가 도구가 포함되어 있습니다.

ZSE: 3.9초의 콜드 스타트를 지원하는 오픈소스 LLM 추론 엔진
ZSE는 오픈소스 LLM 추론 엔진으로, 32B 모델의 메모리 요구량을 64GB에서 19.3GB VRAM으로 줄이고, 사전 양자화된 .zse 포맷과 메모리 매핑된 가중치를 사용해 7B 모델의 콜드 스타트를 3.9초로 단축합니다.

에이전트작업메모리: AI 코딩 에이전트를 위한 로컬 메모리 시스템
AgentWorkingMemory(AWM)는 AI 코딩 에이전트의 세션 간 기억 상실 문제를 해결하는 로컬 메모리 시스템입니다. SQLite 데이터베이스, 세 개의 로컬 ML 모델(총 약 124MB)을 사용하며 MCP를 통해 자동으로 통합되어 Claude Code 세션 전반에 걸쳐 지속적이고 상황 인식 메모리를 제공합니다.