오픈소스 LLM 에이전트 자동 메모리 시스템, 94% 회상 정확도 달성

✍️ OpenClawRadar📅 게시일: March 21, 2026🔗 Source
오픈소스 LLM 에이전트 자동 메모리 시스템, 94% 회상 정확도 달성
Ad

개발자가 LLM 기반 에이전트를 위한 자동 메모리 시스템을 오픈소스로 공개했습니다. 이 시스템은 "이것을 저장하라"는 명시적인 명령 없이도 세션 간에 사실을 자동으로 추출, 분류 및 지속적으로 저장합니다. 전체 프로젝트—플러그인 코드, 벤치마크 설계, 테스트 하니스 포함—는 주요 개발 도구로 Claude Code를 사용하여 구축되었습니다.

메모리 시스템 작동 방식

이 시스템은 두 개의 계층으로 작동합니다:

  • 계층 1 (턴당): 경량 LLM이 각 턴을 실시간으로 요약하고 스테이징 파일에 기록합니다
  • 계층 2 (세션 경계): 비동기식으로 네 가지 기술 파일로 분류합니다: 정체성, 지식, 교훈, 선호도

검색은 에이전트가 설명의 키워드 매칭을 기반으로 관련 기술 파일을 로드하는 방식으로 작동합니다. 이 접근 방식은 벡터 데이터베이스나 RAG 파이프라인 대신 에이전트가 "기술"로 읽는 구조화된 마크다운 파일을 사용합니다.

Claude Code를 통한 개발

Claude Code는 프로젝트의 여러 측면을 지원했습니다:

  • 아키텍처 설계: 벤치마크 후보로 LongMemEval을 평가하는 데 도움을 주었으며, 패러다임 불일치(장문맥 검색 vs. 점진적 메모리)를 식별하고 적응된 6가지 질문 유형 벤치마크를 제안했습니다
  • 벤치마크 작성: 사실 심기 테이블, 업데이트 체인(A→B→C), 간섭 쌍, 기권 질문, 2홉 트리거 배치를 포함한 전체 20세션/48사실 테스트 스위트를 설계했습니다
  • 테스트 하니스: 직렬 실행기, 다중 턴 폴링, 생명주기 관리, 규칙 평가기, LLM 판단 파이프라인을 포함한 전체 자동 테스트 프레임워크를 구축했습니다
  • 루프 내 디버깅: 테스트 실행 중 실시간으로 문제를 진단했습니다. 예를 들어, 업데이트 팝업이 에이전트 재시작을 차단하는 문제는 업데이터 상태 파일을 읽기 전용으로 잠금으로써 해결되었습니다
Ad

벤치마크 결과

20세션 벤치마크는 LongMemEval에서 영감을 받았으며 6가지 질문 유형에 걸쳐 48개의 심어진 사실을 테스트했습니다:

  • 심층 회상: 1-2세션의 사실을 15+ 세션 후에 테스트 - 89%
  • 지식 업데이트: 3단계 수정 체인(A→B→C) - 100%
  • 세션 간 추론: 3개 이상 세션의 사실 결합 - 100%
  • 간섭 저항: 혼동해서는 안 되는 유사한 이름 - 100%
  • 시간적 추론: "어느 것이 먼저였나요?" 순서 질문 - 80%
  • 기권

전체: 52개 체크포인트 중 49개 통과(94.2%). 유일한 심각한 실패는 에이전트가 모호하게 관련된 사실("홍보 작업")에서 "당신은 소셜 미디어 마케팅을 해봤군요"라고 추론했을 때 발생했으며, 정답은 "논의된 적 없음"이었습니다—이는 전형적인 LLM 과잉 추론 문제입니다.

가용성 및 질문

이 프로젝트는 오픈소스이며 코드와 벤치마크가 GitHub에서 이용 가능합니다. 개발자는 기술 파일 접근 방식(구조화된 마크다운 vs. 벡터 검색), 기권 테스트의 더 나은 방법(가장 어려운 차원으로 식별됨), 그리고 에이전트의 세션 간 메모리를 벤치마킹하는 다른 사람들에 대한 정보(단순히 장문맥이 아닌)에 대한 피드백을 찾고 있습니다.

📖 Read the full source: r/ClaudeAI

Ad

👀 See Also

FixAI Dev: Claude Haiku를 활용한 엄격한 JSON 계약 기반 소비자 권리 게임
Tools

FixAI Dev: Claude Haiku를 활용한 엄격한 JSON 계약 기반 소비자 권리 게임

한 개발자가 Claude Haiku를 기업 AI로 활용하여 소비자 요청을 부당하게 거부하는 상황을 시뮬레이션하는 브라우저 게임 'FixAI Dev'를 만들었습니다. 플레이어는 실제 소비자 보호 법률을 사용하여 반박하며, 법적으로 타당한 주장을 펼칠수록 AI의 확신도가 떨어집니다.

OpenClawRadar
Codesight CLI는 코드베이스를 스캔하여 AI 코딩 에이전트의 토큰 사용량을 줄입니다.
Tools

Codesight CLI는 코드베이스를 스캔하여 AI 코딩 에이전트의 토큰 사용량을 줄입니다.

Codesight는 제로 의존성 CLI 도구로, TypeScript, Python, Go 프로젝트를 스캔하여 간결한 컨텍스트 파일을 생성합니다. 실제 프로덕션 코드베이스 벤치마크에 따르면, Claude Code 탐색 토큰을 평균 12.3배 줄여줍니다.

OpenClawRadar
유튜브 대본 MCP가 클로드 연구 작업 흐름을 개선합니다
Tools

유튜브 대본 MCP가 클로드 연구 작업 흐름을 개선합니다

YouTube 자막 MCP는 Claude가 YouTube 링크에서 타임스탬프가 포함된 전체 자막을 가져올 수 있게 해주어, 수동 탭 전환과 복사 붙여넣기를 제거합니다. 사용자는 Claude가 사용자 요약 대신 실제 자막을 가질 때 훨씬 더 나은 답변을 얻는다고 보고합니다.

OpenClawRadar
토큰 강화기는 AI 에이전트를 위한 웹페이지 토큰 사용량을 줄여줍니다.
Tools

토큰 강화기는 AI 에이전트를 위한 웹페이지 토큰 사용량을 줄여줍니다.

한 개발자가 웹 페치에서 가져온 원본 HTML이 AI 에이전트 컨텍스트에서 과도한 토큰을 소모한다는 사실을 발견했으며, 야후 파이낸스 페이지의 경우 704K 토큰을 사용했습니다. MCP 서버로 Token Enhancer를 사용하면 이를 2.6K 토큰으로 줄일 수 있었습니다.

OpenClawRadar