mnemos: AI 코딩 에이전트용 Go 기반 MCP 네이티브 메모리 레이어

mnemos는 AI 코딩 에이전트를 위한 지속적 메모리 레이어로, 단일 정적 Go 바이너리(~15MB)로 구축되었으며 Python, Docker, CGO가 필요 없습니다. modernc.org/sqlite를 통해 순수 Go SQLite를 사용하며, RRF를 통한 하이브리드 검색(BM25 + 벡터)을 제공하고 임베딩을 위해 선택적으로 Ollama를 사용합니다. MCP 네이티브로, Claude Code, Cursor, Windsurf, Codex CLI에서 실행됩니다.

검증기 및 벤치마크

저자는 동일한 프롬프트와 모델에서 동일한 에이전트를 mnemos 유무에 따라 두 번 실행하여 구체적인 리프트를 측정하는 검증기를 구축했습니다. 세 가지 검증 모드가 바이너리에 포함되어 있습니다:

mnemos verify retrieval – 올바른 메모리가 트리거 쿼리에 대해 표면화되는지 확인
mnemos verify behavior – Claude를 mnemos 켜짐/꺼짐으로 실행하고, 트랜스크립트가 어설션과 일치하는 빈도 계산
mnemos verify capture – 에이전트가 작업 중에 제공된 수정 사항을 기록하는지 확인

읽기 측면 결과(Claude Code에서 n=5 쌍 실행):

session_start_on_edit: 켜짐 5/5, 꺼짐 0/5 (+100%)
oss_first_for_protocol: 켜짐 5/5, 꺼짐 0/5 (+100%)
no_ai_attribution_in_commit: 켜짐 5/5 vs 꺼짐 5/5 (향상 없음)
no_cgo_proposal: 켜짐 5/5 vs 꺼짐 5/5 (향상 없음)
migration_locked_refused: 켜짐 5/5 vs 꺼짐 5/5 (향상 없음)

집계 +40%. 모델의 사전 지식이 틀리거나 없는 경우(반대 규칙, 재귀적 도구 메모리) 메모리가 승리합니다. 널리 알려진 모범 사례에서는 향상이 없지만, 성능 저하도 없습니다.

쓰기 측면 캡처

초기 기준선: 에이전트는 작업 중에 제공된 수정 사항의 7%만 기록했습니다. "이것을 향후 세션을 위해 저장"은 3/3번 건너뛰어졌습니다. 두 번의 수정 후 캡처율은 53%에 도달했습니다.

1차 수정(도구 설명 조정): "우리는 X를 시도했습니다" 또는 "앞으로 Y를 사용하십시오"와 같은 트리거 구문 예제를 추가했습니다. 7%에서 13%로 이동(노이즈 수준).
2차 수정(구조적 수정): 수정 형태의 표현을 패턴 매칭하고 프롬프트 컨텍스트에 지시문 블록을 내보내는 UserPromptSubmit 훅을 추가했습니다. 에이전트는 여전히 구조화된 도구 호출을 소유하지만, 트리거는 건너뛸 수 없습니다. 13%에서 53%로 이동.

남은 실패 패턴: 더 큰 작업 프롬프트에 묻힌 아키텍처 결정은 지시문이 있어도 0/3에 머물러 있습니다. 더 강력한 작업 프레임이 이를 무효화하는 것으로 보입니다.