로컬 MCP 메모리: AI 대화 통합 및 FAISS 벡터 검색

이것이 무엇인가요

한 개발자가 AI 대화를 위한 로컬 메모리 시스템을 만들었습니다. 이 시스템은 단순히 정보를 저장하는 것이 아니라 통합하고 종합합니다. MCP 서버로 구축된 이 시스템은 Claude Desktop 및 Claude Code와 같은 호환 가능한 클라이언트와 함께 작동하며, 데이터가 하드웨어를 떠나지 않고 100% 로컬에서 실행됩니다.

작동 방식

표준 RAG 시스템과의 주요 차이점은 통합 과정입니다. 6시간마다 로컬 LLM(LM Studio에서 실행되는 Qwen 2.5-7B)이 주제별로 최근 메모리를 클러스터링하고 구조화된 지식 문서로 통합합니다. 사실, 해결책, 선호도를 추출하여 기존 지식과 병합하고 모든 것을 버전 관리합니다.

기술 스택

임베딩: LM Studio를 통한 nomic-embed-text-v1.5
벡터 검색: FAISS(시맨틱 + 키워드 하이브리드)
통합 LLM: LM Studio를 통한 Qwen 2.5-7B(Q4)
저장소: 에피소드용 SQLite, 벡터용 FAISS
프로토콜: MCP — 지원하는 모든 것과 작동
구성: TOML

기능

코사인 유사도 0.95 임계값을 사용한 시맨틱 중복 제거
적응형 놀라움 점수 부여 — 자주 접근하는 메모리는 강화되고, 오래된 메모리는 감소
임시 파일 + os.replace를 사용한 원자적 쓰기로 충돌 방지
무덤 기반 FAISS 삭제 — 전체 인덱스를 재구성하는 대신 O(1)
우아한 성능 저하 — LM Studio가 다운되면 저장소는 계속 작동하고 통합은 일시 중지
88개 테스트 통과

MCP 도구

memory_store — 유형, 태그, 놀라움 점수와 함께 에피소드 저장
memory_recall — 에피소드 및 통합된 지식에 대한 시맨틱 검색
memory_forget — 제거할 에피소드 표시
memory_correct — 지식 문서 업데이트
memory_export — 전체 JSON 백업
memory_status — 상태 확인

MCP가 선택된 이유

모델은 자주 교체되지만, 축적된 지식은 모델과 함께 사라지지 않아야 합니다. MCP는 메모리를 이식 가능하게 만듭니다 — 하나의 저장소, 많은 인터페이스. 메모리 계층은 개별 모델보다 더 가치 있게 됩니다.

실제 결과

약 일주일 사용 후, 시스템은 PC 하드웨어, VR 설정, 코딩 선호도, 프로젝트 아키텍처에 대한 지식 문서를 구축했습니다 — 모두 일반 대화에서 종합되었습니다. 새로운 채팅을 시작할 때, AI는 사용자의 컨텍스트를 다시 설명하지 않고도 이미 알고 있습니다.

요구 사항

Python 3.11 이상
Qwen 2.5-7B 및 nomic-embed-text-v1.5가 로드된 LM Studio
모든 MCP 클라이언트

📖 전체 소스 읽기: r/LocalLLaMA

로컬 MCP 메모리 시스템과 AI 대화를 위한 통합 기능

이것이 무엇인가요

작동 방식

기술 스택

기능

MCP 도구

MCP가 선택된 이유

실제 결과

요구 사항

👀 See Also

클로드용 자체 호스팅 메모리 레이어, 클라우드플레어에서 무료 실행

Vellium, 로컬 LLM을 위한 데스크톱 펫과 CLI 기반 에이전트 추가

Claude Skill: TypeScript, Rust, Swift, Go, JS, Postgres 및 감사를 위한 12가지 엄격 코딩 규칙 패키지

LobsterBoard가 테마 시스템과 템플릿 갤러리를 추가했습니다