Claw Compactor: 14段階トークン圧縮エンジンでLLM推論54%削減

Claw Compactorとは？

Claw Compactorは、14段階のFusion Pipelineを中心に構築されたオープンソースのLLMトークン圧縮エンジンです。各段階は特殊な圧縮器（ASTを考慮したコード分析からJSON統計サンプリング、simhashベースの重複排除まで）で構成され、各段階の出力が次の段階に渡される不変データフローアーキテクチャを通じて連鎖しています。

アーキテクチャの詳細

Fusion Pipelineには以下の段階が含まれます：

QuantumLock → Cortex → Photon → RLE → SemanticDedup → Ionizer
LogCrunch → SearchCrunch → DiffCrunch → StructuralCollapse
Neurosyntax → Nexus → TokenOpt → Abbrev

主要な設計原則：

不変データフロー — FusionContextは凍結されたデータクラスです。各段階は新しいFusionResultを生成し、何もその場で変更されません。
圧縮前のゲート — 各段階にはshould_apply()があり、作業前にコンテキストタイプ、言語、役割を検査します。適用されない段階はコストゼロでスキップされます。
コンテンツ認識ルーティング — Cortexはコンテンツタイプ（コード、JSON、ログ、差分、検索結果）と言語（Python、Go、Rust、TypeScriptなど）を自動検出し、下流の段階がタイプを考慮した圧縮決定を行います。
可逆圧縮 — Ionizerはオリジナルをハッシュアドレス指定のRewindStoreに保存します。LLMはツールを呼び出して、マーカーIDで圧縮されたセクションを取得できます。

ベンチマーク結果

実世界の圧縮（FusionEngine v7 vs 従来の正規表現）：

Pythonソース：25.0%圧縮（従来比3.4倍改善）
JSON（100項目）：81.9%圧縮（従来比6.5倍改善）
ビルドログ：24.1%圧縮（従来比4.4倍改善）
エージェント会話：31.0%圧縮（従来比5.4倍改善）
Git差分：15.0%圧縮（従来比2.4倍改善）
検索結果：40.7%圧縮（従来比7.7倍改善）
加重平均：53.9%圧縮（従来比5.9倍改善）

SWE-bench実タスク：

django__django-11620（4.5K）：14.5%圧縮
sympy__sympy-14396（5.5K）：19.1%圧縮
scikit-learn-25747（11.8K）：15.9%圧縮
scikit-learn-13554（73K）：11.8%圧縮
scikit-learn-25308（81K）：14.4%圧縮

LLMLingua-2との比較（ROUGE-L忠実度）：

圧縮率0.3（積極的）：Claw Compactor 0.653 vs LLMLingua-2 0.346（+88.2%）
圧縮率0.5（バランス）：Claw Compactor 0.723 vs LLMLingua-2 0.570（+26.8%）

クイックスタート

git clone https://github.com/open-compress/claw-compactor.git
cd claw-compactor
# ワークスペースのベンチマーク（非破壊的）
python3 scripts/mem_compress.py /path/to/workspace benchmark
# 完全圧縮パイプライン
python3 scripts/mem_compress.py /path/to/workspace full

要件：Python 3.9以上。オプション：正確なトークンカウントにはpip install tiktoken。

APIの使用法

from scripts.lib.fusion.engine import FusionEngine

engine = FusionEngine()
result = engine.compress(
    text="def hello(): \n # greeting function \n print('hello')",
    content_type="code",  # またはCortexに自動検出させる
    language="python",    # オプションのヒント
)
print(result["compressed"])  # 圧縮出力
print(result["stats"])       # 段階ごとの統計

📖 Read the full source: HN LLM Tools