Ctxpact: 110k Token auf 12k komprimieren für lokale LLMs

Ctxpact ist ein schlanker, OpenAI-kompatibler Proxy, der zwischen KI-Agenten und lokalen LLMs sitzt und übergroße Eingaben intelligent komprimiert, bevor sie Modelle mit begrenzten Kontextfenstern erreichen. Er ist für agentenbasierte Workflows wie OpenClaw und Hermes konzipiert, die 100k+ Token an Modelle mit nur 16k Kontextfenstern senden, wo ein Abschneiden kritische Informationen verlieren würde.

Wie es funktioniert

Das System verwendet eine 3-stufige Komprimierungspipeline:

DCP (Dynamisches Kontext-Beschneiden): Dedupliziert Tool-Aufrufe, entfernt überflüssige Dateischreibvorgänge, kürzt Fehler-Stack-Traces. Keine LLM-Aufrufe, rein strukturell.
Zusammenfassen: Entfernt alte Gesprächsrunden und ersetzt sie durch LLM-generierte Zusammenfassungen. Behält ein gleitendes Fenster der letzten Runden intakt.
Extrahieren: Wenn die Eingabe immer noch zu groß ist (wie ein 110k-Roman), verwendet es eine von 16 Extraktionsstrategien, um die relevantesten Inhalte innerhalb des Token-Budgets herauszuziehen.

Extraktionsstrategien

Die Extraktionsstufe implementiert 16 Strategien, darunter:

0 LLM-Aufrufe: Ähnlichkeit von Einbettungen (ChromaDB), Abschnittsüberschriften, heuristische Schlüsselwortsuche, LLMLingua-Komprimierung
1 LLM-Aufruf: LLM generiert Suchbegriffe, IDF-gewichtete Wortvergleiche stellen den Kontext zusammen
2 LLM-Aufrufe (beste Genauigkeit): readagent — Einbettung + BM25 + RRF-Fusion, duale LLM-Begriffserweiterung, positionsbewusste Auszüge
N LLM-Aufrufe: Mehrstufige Tool-Aufrufschleifen, DSPy-Codegenerierung, Map-Reduce-Chunking

Benchmark-Ergebnisse

12 Strategien wurden an 2 Modellen (LFM2-8B-A1B und Qwen3.5-9B) getestet, insgesamt 331 GGUF-Modelle:

Frankenstein-Test: 110k Token auf 12k Token komprimiert, 8 Leseverständnisfragen; 8/8 korrekt, deterministisch über 3 aufeinanderfolgende Durchläufe, 0% Varianz
LoCoMo-MC10: Mehrsitzungs-Konversations-Fragen, 10 Auswahlmöglichkeiten, Zufallsbasislinie 10%; readagent + Qwen3.5-9B erzielt 15/20 (75%)
Kombinierte Leistung: readagent + Qwen3.5-9B erreicht 87,5%, rlm + Qwen3.5-9B erreicht 80,0%

Wichtige Erkenntnisse

Die Modellwahl ist wichtiger als die Strategiewahl: Der Wechsel von LFM2 zu Qwen3.5 verbesserte jede einzelne Strategie um +25-50 Prozentpunkte. Die Medianstrategie stieg von 5/8 auf 7/8 allein durch den Modellwechsel.
NR-MMLU sagt die Leistung im Kontext-Engineering voraus: LFM2s 47% NR-MMLU gegenüber Qwen3.5s 65% korreliert direkt mit den Genauigkeitsunterschieden.
2 LLM-Extraktionsaufrufe sind der Sweet Spot: Der Wechsel von 0 zu 1 Aufruf bringt einen bedeutenden Schub; 1 zu 2 Aufrufe erreichen die maximale Genauigkeit. Über 2 Aufrufe hinaus sinkt die Genauigkeit.
readagent und rlm sind bahnbrechende Strategien: Beide erreichen 8/8 im Frankenstein-Test. Nur Strategien, die Frage 4 (Irland-Frage) lösen. readagent führt domänenübergreifend mit 75% LoCoMo gegenüber rlm mit 60%.

Technische Details

Architektur: Eigenständiger Proxy (LiteLLM-Plugin und Sidecar-Prozess wurden erwogen), da bahnbrechende Strategien LLM-Aufrufe mitten in der Pipeline benötigen
Implementierung: ~11k Zeilen Python, FastAPI-Server, 3 Endpunkte, OpenAI-kompatibel, keine schwergewichtigen Frameworks
Kompatibilität: Kann vor jedem llama-server / Ollama / vLLM-Backend eingefügt werden. Keine API-Schlüssel, keine Cloud, alles läuft auf Ihrer Hardware

Für Entwickler, die lokale LLMs mit agentenbasierten Workflows betreiben, die Kontextfenster überschreiten, bietet Ctxpact eine praktische Lösung, um die Informationsintegrität zu wahren und innerhalb der Hardwaregrenzen zu bleiben.

📖 Read the full source: r/LocalLLaMA