Ctxpact: 로컬 LLM을 위한 컨텍스트 압축 프록시

Ctxpact는 AI 에이전트와 로컬 LLM 사이에 위치하는 경량의 OpenAI 호환 프록시로, 제한된 컨텍스트 윈도우를 가진 모델에 도달하기 전에 과도하게 큰 입력을 지능적으로 압축합니다. 이는 16k 컨텍스트 윈도우만 가진 모델에 100k 이상의 토큰 페이로드를 전송하는 OpenClaw 및 Hermes와 같은 에이전트 워크플로우를 위해 설계되었으며, 여기서 단순 자르기는 중요한 정보를 잃게 됩니다.
작동 방식
이 시스템은 3단계 압축 파이프라인을 사용합니다:
- DCP (동적 컨텍스트 가지치기): 도구 호출을 중복 제거하고, 대체된 파일 쓰기를 제거하며, 오류 스택 추적을 자릅니다. LLM 호출 없이 순수 구조적 처리입니다.
- 요약: 오래된 대화 차례를 제거하고 LLM 생성 요약으로 대체합니다. 최근 차례의 슬라이딩 윈도우는 그대로 유지합니다.
- 추출: 입력이 여전히 너무 큰 경우(예: 110k 소설), 토큰 예산 내에서 가장 관련성 높은 콘텐츠를 추출하기 위해 16가지 추출 전략 중 하나를 사용합니다.
추출 전략
추출 단계는 다음과 같은 16가지 전략을 구현합니다:
- 0 LLM 호출: 임베딩 유사성(ChromaDB), 섹션 헤더, 휴리스틱 키워드 grep, LLMLingua 압축
- 1 LLM 호출: LLM이 검색어를 생성하고, IDF 가중치 단어 수준 매칭으로 컨텍스트를 조립
- 2 LLM 호출 (최고 정확도): readagent — 임베딩 + BM25 + RRF 융합, 이중 LLM 용어 확장, 위치 인식 발췌
- N LLM 호출: 다중 턴 도구 호출 루프, DSPy 코드 생성, 맵-리듀스 청킹
벤치마크 결과
총 331개의 GGUF 모델에 대해 2개 모델(LFM2-8B-A1B 및 Qwen3.5-9B)로 12가지 전략을 테스트했습니다:
- 프랑켄슈타인 테스트: 110k 토큰이 12k 토큰으로 압축, 8개 독해 질문; 8/8 정답, 3회 연속 실행에서 결정적, 0% 변동성
- LoCoMo-MC10: 다중 세션 대화 QA, 10선택, 무작위 기준은 10%; readagent + Qwen3.5-9B는 15/20(75%) 점수
- 종합 성능: readagent + Qwen3.5-9B는 87.5% 달성, rlm + Qwen3.5-9B는 80.0% 달성
주요 발견 사항
- 전략 선택보다 모델 선택이 더 중요: LFM2에서 Qwen3.5로 전환하면 모든 전략이 +25-50% 포인트 향상되었습니다. 중간 전략은 모델만 변경하여 5/8에서 7/8로 향상되었습니다.
- NR-MMLU가 컨텍스트 엔지니어링 성능을 예측: LFM2의 47% NR-MMLU 대 Qwen3.5의 65%는 정확도 차이에 직접 매핑됩니다.
- 2 LLM 추출 호출이 최적점: 0에서 1 호출로 의미 있는 향상; 1에서 2 호출로 최고 정확도 도달. 2 호출 이상에서는 정확도 하락.
- readagent와 rlm은 획기적인 전략: 둘 다 프랑켄슈타인에서 8/8 달성. Q4(아일랜드 질문)를 해결하는 유일한 전략입니다. readagent는 LoCoMo에서 75%로 rlm의 60% 대비 도메인 간 선도.
기술적 세부사항
- 아키텍처: 독립형 프록시(LiteLLM 플러그인 및 사이드카 프로세스 고려) — 획기적인 전략이 파이프라인 중간 LLM 호출 필요
- 구현: 약 11k 줄의 Python, FastAPI 서버, 3개 엔드포인트, OpenAI 호환, 무거운 프레임워크 없음
- 호환성: 모든 llama-server / Ollama / vLLM 백엔드 앞에 바로 배치 가능. API 키 없음, 클라우드 없음, 모든 것이 사용자 하드웨어에서 실행
컨텍스트 윈도우를 초과하는 에이전트 워크플로우로 로컬 LLM을 실행하는 개발자에게 Ctxpact는 하드웨어 제약 내에서 정보 무결성을 유지하면서 실용적인 솔루션을 제공합니다.
📖 전체 Source 읽기: r/LocalLLaMA
👀 See Also

OpenClaw 에이전트 릴레이 플러그인, 다중 에이전트 설정에서 텔레그램 전송 문제 해결
openclaw-agent-relay 플러그인은 세션 전송 응답이 Telegram 대신 웹채팅으로 가는 지속적인 문제를 해결합니다. 게이트웨이 WebSocket RPC를 사용하여 deliver:true로 에이전트 턴을 트리거함으로써 명시적 메시지 도구나 알림 단계와 같은 해결책이 필요 없게 됩니다.

cowork-session-sync v1.0.0는 Claude Cowork의 세션 연속성을 제공합니다.
cowork-session-sync v1.0.0은 Claude Cowork의 세션 연속성을 유지하기 위한 도구로, 원본 대화 기록을 보관하고 이를 Markdown으로 정제하며, 'catchup-bunny'를 통한 한 문장 부트스트랩으로 전체 컨텍스트를 복원할 수 있도록 합니다.

향상된 클로드 코드 텔레그램 플러그인, 음성·스티커·스레딩 기능 추가
한 개발자가 공식 Claude Code Telegram 플러그인의 포크를 공개했습니다. 이 포크는 Whisper를 통한 음성 메시지 전사, 스티커/GIF 지원, 대화 스레딩, 이모지 반응 기능을 추가합니다. 클론 생성, 파일 하나 복사, 재시작만 필요한 드롭인 대체 버전입니다.

자동화된 클로드 코드 파이프라인으로 기능당 토큰 사용량 78k에서 15k로 절감
Claude Code용 오픈소스 파이프라인은 기존 코드의 사전 점검 분석을 포함한 12단계를 자동화하여 기능당 토큰 사용량을 약 78k에서 약 15k로 줄입니다. 세 가지 프로필(yolo, standard, paranoid)을 제공하며 신뢰도 점수를 grep 기반 검증으로 대체합니다.