LLM 토큰 54% 압축하는 14단계 클로 컴팩터 오픈소스

Claw Compactor란 무엇인가요?

Claw Compactor는 14단계 Fusion Pipeline을 중심으로 구축된 오픈소스 LLM 토큰 압축 엔진입니다. 각 단계는 AST 인식 코드 분석부터 JSON 통계 샘플링, simhash 기반 중복 제거에 이르기까지 특화된 압축기로 구성되며, 각 단계의 출력이 다음 단계로 전달되는 불변 데이터 흐름 아키텍처를 통해 연결됩니다.

아키텍처 상세 정보

Fusion Pipeline에는 다음 단계들이 포함됩니다:

QuantumLock → Cortex → Photon → RLE → SemanticDedup → Ionizer
LogCrunch → SearchCrunch → DiffCrunch → StructuralCollapse
Neurosyntax → Nexus → TokenOpt → Abbrev

주요 설계 원칙:

불변 데이터 흐름 — FusionContext는 고정된 데이터 클래스입니다. 모든 단계는 새로운 FusionResult를 생성하며, 아무것도 제자리에서 변경되지 않습니다.
압축 전 게이트 — 각 단계에는 작업을 수행하기 전에 컨텍스트 유형, 언어, 역할을 검사하는 should_apply() 함수가 있습니다. 적용되지 않는 단계는 비용 없이 건너뜁니다.
콘텐츠 인식 라우팅 — Cortex는 콘텐츠 유형(코드, JSON, 로그, diff, 검색 결과)과 언어(Python, Go, Rust, TypeScript 등)를 자동으로 감지한 후, 하위 단계에서 유형 인식 압축 결정을 내립니다.
가역적 압축 — Ionizer는 원본을 해시 주소 지정 RewindStore에 저장합니다. LLM은 마커 ID로 압축된 섹션을 검색하기 위한 도구를 호출할 수 있습니다.

벤치마크 결과

실제 압축 (FusionEngine v7 vs 레거시 정규식):

Python 소스: 25.0% 압축 (레거시 대비 3.4배 향상)
JSON (100개 항목): 81.9% 압축 (6.5배 향상)
빌드 로그: 24.1% 압축 (4.4배 향상)
에이전트 대화: 31.0% 압축 (5.4배 향상)
Git diff: 15.0% 압축 (2.4배 향상)
검색 결과: 40.7% 압축 (7.7배 향상)
가중 평균: 53.9% 압축 (5.9배 향상)

SWE-bench 실제 작업:

django__django-11620 (4.5K): 14.5% 압축
sympy__sympy-14396 (5.5K): 19.1% 압축
scikit-learn-25747 (11.8K): 15.9% 압축
scikit-learn-13554 (73K): 11.8% 압축
scikit-learn-25308 (81K): 14.4% 압축

vs LLMLingua-2 (ROUGE-L 충실도):

압축률 0.3 (공격적): Claw Compactor 0.653 vs LLMLingua-2 0.346 (+88.2%)
압축률 0.5 (균형적): Claw Compactor 0.723 vs LLMLingua-2 0.570 (+26.8%)

빠른 시작

git clone https://github.com/open-compress/claw-compactor.git
cd claw-compactor
# 작업 공간 벤치마크 (비파괴적)
python3 scripts/mem_compress.py /path/to/workspace benchmark
# 전체 압축 파이프라인
python3 scripts/mem_compress.py /path/to/workspace full

요구사항: Python 3.9+. 선택사항: 정확한 토큰 수를 위해 pip install tiktoken.

API 사용법

from scripts.lib.fusion.engine import FusionEngine

engine = FusionEngine()
result = engine.compress(
    text="def hello(): \n # greeting function \n print('hello')",
    content_type="code",  # 또는 Cortex 자동 감지
    language="python",    # 선택적 힌트
)
print(result["compressed"])  # 압축된 출력
print(result["stats"])       # 단계별 통계

📖 전체 소스 읽기: HN LLM Tools