클로드를 위한 지속적 메모리: MCP 기반 로컬 스택, 39ms 검색, 82% 토큰 감소

✍️ OpenClawRadar📅 게시일: May 8, 2026🔗 Source
클로드를 위한 지속적 메모리: MCP 기반 로컬 스택, 39ms 검색, 82% 토큰 감소
Ad

한 Reddit 사용자가 Claude용 로컬 영구 메모리 레이어를 구축하여 세션 간 제로 컨텍스트 문제를 해결했습니다. 스택은 완전히 로컬에서 실행되며(클라우드 없음, API 키 없음) MCP를 통해 통합됩니다. 주요 아키텍처: 4개 레이어(L0: SQLite의 추가 전용 이벤트 로그, L1: 지연된 구조화된 사실, L2/L3: 위키 산문, L4: 요약 + 결정 + 열린 스레드가 있는 결정화된 세션 노드), 벡터 검색용 Qdrant Docker, GPU에서 Qwen3-Embedding-4B와 CPU에서 Qwen3.5-2B-Q4_K_M을 사용하는 llama.cpp(임베딩 및 채팅용), 7가지 도구(retrieve, crystallize_session, list_sessions, get_l4_node, index_status, reindex, shutdown_models)를 노출하는 FastMCP 서버.

수치

  • grep+Read 기준 대비 토큰 감소: 평균 82.7%, 중앙값 86.2%.
  • 검색 F1: 기준 0.20 대비 0.50.
  • 임베딩 콜드 스타트 약 4초; 핫패스 p95 39ms(버그 수정 전 2241ms).
  • L4 세션 검색 평가: 평균 점수 0.920(게이트 0.6).
  • 104개 마크다운 파일에서 738개 청크 인덱싱.
Ad

핵심 교훈: Windows에서 연결 재사용

핫패스 검색이 4070 Ti Super에서 GPU 상주 임베딩을 사용함에도 p95가 2241ms에서 멈췄습니다. 원인: 모든 httpx.post()가 새 TCP 연결을 열었고, Windows 로컬호스트 핸드셰이크가 약 2초가 걸렸습니다. 지속적인 httpx.Client와 keep-alive로 전환하여 p95가 39ms로 떨어졌습니다—57배 속도 향상.

기타 놀라운 점

  • Qwen3 생각 모드: llama-server에서 chat_template_kwargs: {enable_thinking: false}--jinja를 통해 enable_thinking을 비활성화하지 않으면, 모델이 모든 토큰 예산을 생각 블록에 사용하고 빈 내용을 출력합니다.
  • MCP 등록: Claude Desktop의 에이전트 모드(Cowork)는 ~/.claude.json이 아닌 플러그인 구성 파일을 읽습니다. LKS 서비스는 적절한 Cowork .plugin 번들로 패키징되어야 합니다.

대상 사용자

Claude를 많이 사용하고 클라우드 의존 없이 비용 효율적이고 개인적인 로컬 메모리 레이어를 통해 세션 간 컨텍스트를 유지하려는 개발자.

📖 전체 소스 읽기: r/ClaudeAI

Ad

👀 See Also

Claude Toolbox 확장이 메시지 수준 북마크와 전체 텍스트 검색 기능을 추가했습니다
Tools

Claude Toolbox 확장이 메시지 수준 북마크와 전체 텍스트 검색 기능을 추가했습니다

Claude Toolbox는 Chrome 확장 프로그램으로, 개별 메시지를 북마크하고, 대화 내용 전체를 텍스트 검색하며, TXT 또는 JSON으로 내보낼 수 있습니다. 무료 티어는 2개의 대화를 지원하며, 유료는 월 $5 또는 평생 $49입니다.

OpenClawRadar
OpenClaw 스킬 팩: 우분투에서 실제 자율 운영을 위한 2,500개 이상의 명령어 세트
Tools

OpenClaw 스킬 팩: 우분투에서 실제 자율 운영을 위한 2,500개 이상의 명령어 세트

OpenClaw AI 에이전트를 위한 새로운 스킬 패키지는 Ubuntu 환경에서 Docker 관리, 네트워크 구성, CVE 대응 및 시스템 자동화와 같은 DevOps 작업을 위한 2,500개 이상의 실행 스킬을 도입합니다.

OpenClawRadar
OpenClaw 공유 메모리 플러그인: SQLite 기반 다중 에이전트 조정
Tools

OpenClaw 공유 메모리 플러그인: SQLite 기반 다중 에이전트 조정

한 개발자가 OpenClaw 다중 에이전트 설정을 위한 플러그인을 개발하여, 에이전트들이 SQLite를 사용해 메모리를 공유할 수 있도록 하여 외부 서비스 필요성을 제거했습니다. 이 플러그인은 도구를 통한 명시적 메모리 공유, 자동 컨텍스트 추출, 접근 제어, 엔티티 추적, 모순 감지 기능을 제공합니다.

OpenClawRadar
브라우저 하네스: LLM에 CDP 직접 접근 권한을 부여하여 브라우저 작업 자체 수정
Tools

브라우저 하네스: LLM에 CDP 직접 접근 권한을 부여하여 브라우저 작업 자체 수정

Browser Harness는 브라우저 프레임워크를 제거하여 LLM이 CDP 웹소켓에 직접 접근하고, 작업 중간에 필요한 도구를 스스로 작성할 수 있게 해줍니다. upload_file() 함수를 스스로 만들어내는 모습으로 시연되었습니다.

OpenClawRadar