메를린: 로컬 LLM 컨텍스트 중복 제거 도구

저자는 LLM 컨텍스트 윈도우를 위한 로컬 우선 중복 제거 도구인 Merlin을 출시했습니다. 실제 에이전트 세션과 RAG 파이프라인의 2,200만 개 구절을 벤치마킹한 결과, 일반적인 에이전트 컨텍스트에서 22%의 중복 콘텐츠가 발견되었고 RAG가 많은 쿼리에서는 최대 71%까지 나타났습니다. 8K/16K/32K 컨텍스트의 로컬 모델에서 중복을 제거하면 잘리기 전에 더 많은 유용한 토큰을 담을 수 있습니다.

세 가지 통합 모드

1. HTTP 프록시 모드

Ollama, vLLM, SGLang, OpenWebUI, llama.cpp 서버 또는 OpenAI 호환 엔드포인트가 있는 모든 서비스에 가장 적합합니다. 프록시를 로컬에서 실행하고 클라이언트를 모델 서버가 아닌 http://localhost:8787/v1로 지정하세요. 청크 수준 중복 제거는 모델에 도달하기 전에 나가는 요청에서 이루어집니다.

기본값은 캐시 인식 방식입니다. 대화 접두사는 그대로 두어 vLLM/SGLang 접두사 캐싱이 여전히 작동하도록 하고, 가장 최근 사용자 메시지만 중복 제거합니다. 캐시 적중률이 이미 낮은 경우 선택적으로 공격 모드를 사용할 수 있습니다.

2. MCP 서버

Claude Desktop, Claude Code, OpenClaw, Cursor용. 다음 도구를 제공합니다:

merlin_dedupe – 텍스트 중복 제거
merlin_dedupe_file – 파일 내용 중복 제거
merlin_savings_summary – 통계 표시
merlin_status – 서비스 확인

이 도구들은 자동으로 호출되지 않으며, 덩어리진 텍스트를 붙여넣을 때 모델에 도구를 호출하도록 지시해야 합니다.

3. 독립 실행형 CLI

셸 파이프라인 및 전처리용. 단일 스레드, 약 250KB 바이너리, 런타임 종속성 없음, 네트워크 호출 없음. 위치 인수로 입력 파일을 받고 --output-dedup=path.txt를 통해 중복 제거된 줄을 출력합니다.

설치 (설정당 한 명령)

curl -LO https://github.com/corbenicai/merlin-community/releases/latest/download/merlin-community.zip
unzip merlin-community.zip && cd merlin-community
python shared/install_helpers.py <integration> enable

<integration>은 claude_desktop, claude_code, openclaw, cursor 또는 proxy입니다.

측정 및 트레이드오프

논문: arXiv:2605.09611 (아키텍처), arXiv:2605.09990 (2,200만 구절 측정), Zenodo: 10.5281/zenodo.20090991
커뮤니티 티어 제한: 실행당 50MB, 일일 200MB, 월 2GB. 초과 작업은 깔끔하게 거부됨(51MB 파일에서 확인). 취미 사용은 문제 없음.
오픈코어: 공개 저장소는 커뮤니티 에디션; 고처리량 서버용 별도 폐쇄 소스 Pro 엔진 존재.
수정하지 않는 것: 전체 대화가 매 턴마다 다시 재생되는 세션 단편화 — 이 도구의 범위를 넘는 오케스트레이션 문제.
바이너리 제공: v0.2.1에서 Windows x64 지원. Linux + macOS CI 파이프라인 준비 중.

대상 사용자

로컬 LLM 사용자 중 Ollama, vLLM, SGLang, llama.cpp 또는 OpenAI 호환 백엔드로 에이전트나 RAG를 실행하며 제한된 컨텍스트 윈도우에 더 많은 실제 토큰을 담고 싶은 분.

📖 전체 출처 읽기: r/LocalLLaMA

메를린: 로컬 우선 LLM 컨텍스트 중복 제거 – 최대 71% 청크 중복 측정, 무료 및 오픈코어

세 가지 통합 모드

1. HTTP 프록시 모드

2. MCP 서버

3. 독립 실행형 CLI

설치 (설정당 한 명령)

측정 및 트레이드오프

대상 사용자

👀 See Also

프로모클록: Claude의 2배 오프피크 시간대를 위한 타임존 트래커 (Claude 4.6로 제작)

Agent-Desktop: 운영체제 접근성 트리를 통한 구조화된 데스크톱 자동화

적대적 클로드 채팅을 활용해 킥오프 모호성을 비용 발생 전에 포착하기

Manifest는 이제 API 키 없이 Claude Pro/Max 구독을 지원합니다