클로드를 위한 지속적 메모리: MCP 기반 로컬 스택, 39ms 검색, 82% 토큰 감소

한 Reddit 사용자가 Claude용 로컬 영구 메모리 레이어를 구축하여 세션 간 제로 컨텍스트 문제를 해결했습니다. 스택은 완전히 로컬에서 실행되며(클라우드 없음, API 키 없음) MCP를 통해 통합됩니다. 주요 아키텍처: 4개 레이어(L0: SQLite의 추가 전용 이벤트 로그, L1: 지연된 구조화된 사실, L2/L3: 위키 산문, L4: 요약 + 결정 + 열린 스레드가 있는 결정화된 세션 노드), 벡터 검색용 Qdrant Docker, GPU에서 Qwen3-Embedding-4B와 CPU에서 Qwen3.5-2B-Q4_K_M을 사용하는 llama.cpp(임베딩 및 채팅용), 7가지 도구(retrieve, crystallize_session, list_sessions, get_l4_node, index_status, reindex, shutdown_models)를 노출하는 FastMCP 서버.
수치
- grep+Read 기준 대비 토큰 감소: 평균 82.7%, 중앙값 86.2%.
- 검색 F1: 기준 0.20 대비 0.50.
- 임베딩 콜드 스타트 약 4초; 핫패스 p95 39ms(버그 수정 전 2241ms).
- L4 세션 검색 평가: 평균 점수 0.920(게이트 0.6).
- 104개 마크다운 파일에서 738개 청크 인덱싱.
핵심 교훈: Windows에서 연결 재사용
핫패스 검색이 4070 Ti Super에서 GPU 상주 임베딩을 사용함에도 p95가 2241ms에서 멈췄습니다. 원인: 모든 httpx.post()가 새 TCP 연결을 열었고, Windows 로컬호스트 핸드셰이크가 약 2초가 걸렸습니다. 지속적인 httpx.Client와 keep-alive로 전환하여 p95가 39ms로 떨어졌습니다—57배 속도 향상.
기타 놀라운 점
- Qwen3 생각 모드: llama-server에서
chat_template_kwargs: {enable_thinking: false}와--jinja를 통해enable_thinking을 비활성화하지 않으면, 모델이 모든 토큰 예산을 생각 블록에 사용하고 빈 내용을 출력합니다. - MCP 등록: Claude Desktop의 에이전트 모드(Cowork)는
~/.claude.json이 아닌 플러그인 구성 파일을 읽습니다. LKS 서비스는 적절한 Cowork .plugin 번들로 패키징되어야 합니다.
대상 사용자
Claude를 많이 사용하고 클라우드 의존 없이 비용 효율적이고 개인적인 로컬 메모리 레이어를 통해 세션 간 컨텍스트를 유지하려는 개발자.
📖 전체 소스 읽기: r/ClaudeAI
👀 See Also

Claude Toolbox 확장이 메시지 수준 북마크와 전체 텍스트 검색 기능을 추가했습니다
Claude Toolbox는 Chrome 확장 프로그램으로, 개별 메시지를 북마크하고, 대화 내용 전체를 텍스트 검색하며, TXT 또는 JSON으로 내보낼 수 있습니다. 무료 티어는 2개의 대화를 지원하며, 유료는 월 $5 또는 평생 $49입니다.

OpenClaw 스킬 팩: 우분투에서 실제 자율 운영을 위한 2,500개 이상의 명령어 세트
OpenClaw AI 에이전트를 위한 새로운 스킬 패키지는 Ubuntu 환경에서 Docker 관리, 네트워크 구성, CVE 대응 및 시스템 자동화와 같은 DevOps 작업을 위한 2,500개 이상의 실행 스킬을 도입합니다.

OpenClaw 공유 메모리 플러그인: SQLite 기반 다중 에이전트 조정
한 개발자가 OpenClaw 다중 에이전트 설정을 위한 플러그인을 개발하여, 에이전트들이 SQLite를 사용해 메모리를 공유할 수 있도록 하여 외부 서비스 필요성을 제거했습니다. 이 플러그인은 도구를 통한 명시적 메모리 공유, 자동 컨텍스트 추출, 접근 제어, 엔티티 추적, 모순 감지 기능을 제공합니다.

브라우저 하네스: LLM에 CDP 직접 접근 권한을 부여하여 브라우저 작업 자체 수정
Browser Harness는 브라우저 프레임워크를 제거하여 LLM이 CDP 웹소켓에 직접 접근하고, 작업 중간에 필요한 도구를 스스로 작성할 수 있게 해줍니다. upload_file() 함수를 스스로 만들어내는 모습으로 시연되었습니다.