mnemos: AI 코딩 에이전트를 위한 지속적 메모리 계층 (Go, MCP-Native, Python 없음)

mnemos는 AI 코딩 에이전트를 위한 지속적 메모리 레이어로, 단일 정적 Go 바이너리(~15MB)로 구축되었으며 Python, Docker, CGO가 필요 없습니다. modernc.org/sqlite를 통해 순수 Go SQLite를 사용하며, RRF를 통한 하이브리드 검색(BM25 + 벡터)을 제공하고 임베딩을 위해 선택적으로 Ollama를 사용합니다. MCP 네이티브로, Claude Code, Cursor, Windsurf, Codex CLI에서 실행됩니다.
검증기 및 벤치마크
저자는 동일한 프롬프트와 모델에서 동일한 에이전트를 mnemos 유무에 따라 두 번 실행하여 구체적인 리프트를 측정하는 검증기를 구축했습니다. 세 가지 검증 모드가 바이너리에 포함되어 있습니다:
mnemos verify retrieval– 올바른 메모리가 트리거 쿼리에 대해 표면화되는지 확인mnemos verify behavior– Claude를 mnemos 켜짐/꺼짐으로 실행하고, 트랜스크립트가 어설션과 일치하는 빈도 계산mnemos verify capture– 에이전트가 작업 중에 제공된 수정 사항을 기록하는지 확인
읽기 측면 결과(Claude Code에서 n=5 쌍 실행):
session_start_on_edit: 켜짐 5/5, 꺼짐 0/5 (+100%)oss_first_for_protocol: 켜짐 5/5, 꺼짐 0/5 (+100%)no_ai_attribution_in_commit: 켜짐 5/5 vs 꺼짐 5/5 (향상 없음)no_cgo_proposal: 켜짐 5/5 vs 꺼짐 5/5 (향상 없음)migration_locked_refused: 켜짐 5/5 vs 꺼짐 5/5 (향상 없음)
집계 +40%. 모델의 사전 지식이 틀리거나 없는 경우(반대 규칙, 재귀적 도구 메모리) 메모리가 승리합니다. 널리 알려진 모범 사례에서는 향상이 없지만, 성능 저하도 없습니다.
쓰기 측면 캡처
초기 기준선: 에이전트는 작업 중에 제공된 수정 사항의 7%만 기록했습니다. "이것을 향후 세션을 위해 저장"은 3/3번 건너뛰어졌습니다. 두 번의 수정 후 캡처율은 53%에 도달했습니다.
- 1차 수정(도구 설명 조정): "우리는 X를 시도했습니다" 또는 "앞으로 Y를 사용하십시오"와 같은 트리거 구문 예제를 추가했습니다. 7%에서 13%로 이동(노이즈 수준).
- 2차 수정(구조적 수정): 수정 형태의 표현을 패턴 매칭하고 프롬프트 컨텍스트에 지시문 블록을 내보내는
UserPromptSubmit훅을 추가했습니다. 에이전트는 여전히 구조화된 도구 호출을 소유하지만, 트리거는 건너뛸 수 없습니다. 13%에서 53%로 이동.
남은 실패 패턴: 더 큰 작업 프롬프트에 묻힌 아키텍처 결정은 지시문이 있어도 0/3에 머물러 있습니다. 더 강력한 작업 프레임이 이를 무효화하는 것으로 보입니다.
기술 사양
- 단일 정적 Go 바이너리, ~15MB
modernc.org/sqlite를 통한 순수 Go SQLite- 하이브리드 검색: RRF를 통한 BM25 + 벡터, Ollama 자동 감지, 없어도 정상 작동
- MCP 네이티브: Claude Code, Cursor, Windsurf, Codex CLI에서 실행
- 이중 시간 저장소, 쓰기 경계에서 프롬프트 주입 스캐너, 결정론적 수정-기술 승격(통합 루프에 LLM 없음)
- 로컬 우선: 명시적으로 OpenAI를 임베딩용으로 지정하지 않는 한 데이터가 머신을 떠나지 않음
검증기 하네스
검증기는 리포지토리의 verify/에 있습니다. 픽스처는 YAML이며 시나리오를 쉽게 추가할 수 있습니다. 저자는 n=5가 작다는 점을 언급하며 다음으로 tau-bench pass@k 벤치마크를 작업 중입니다.
리포지토리: https://github.com/polyxmedia/mnemos
📖 전체 출처 읽기: r/LocalLLaMA
👀 See Also

오픈 소스 클로드 코드 기반 작업 관리용 세컨드 브레인 시스템
Kipi System이라는 오픈 소스 시스템은 Claude Code를 사용하여 열린 스레드를 추적하고 후속 조치를 초안 작성하며, 캘린더, 이메일, CRM 및 소셜 피드에서 데이터를 가져와 작업을 관리합니다. 이 시스템은 마찰도에 따라 정렬된 미리 작성된 작업이 포함된 일일 HTML 파일을 생성합니다.

자동 최적화: 자율 성능 최적화를 위한 Claude 코드 플러그인
한 개발자가 코드 성능을 최적화하기 위해 프로파일링 → 계획 → 벤치마크 루프를 자율적으로 실행하는 Claude Code 플러그인인 auto-optimize를 구축했습니다. 한 테스트에서 약 3시간 만에 모든 벤치마크 시나리오에서 27% 더 빠른 해시 테이블을 달성했습니다.

MCP 서버는 클로드가 런타임에 맞춤형 도구를 생성하고 실행할 수 있도록 합니다
한 개발자가 Claude가 재배포 없이도 새로운 도구를 생성, 업데이트, 실행할 수 있는 MCP 서버를 구축했습니다. 이 시스템은 5가지 핵심 도구를 사용하며 Deno 샌드박스에서 사용자 정의 JavaScript/TypeScript 코드를 약 50ms의 콜드 스타트로 실행합니다.

md-redline: Claude에 마크다운 문서를 검토하고 전달하기 위한 GUI 도구
md-redline은 마크다운 파일을 GUI에서 열고, .md 파일에 HTML 마커로 저장되는 인라인 댓글을 남기며, Claude에 업데이트를 위해 다시 전달할 수 있는 오픈소스 도구입니다. 계정, 클라우드 또는 데이터베이스 없이 로컬에서 실행됩니다.