Ctxpact: Kontext-Kompaktierungs-Proxy für lokale LLMs

✍️ OpenClawRadar📅 Veröffentlicht: 13. April 2026🔗 Source
Ctxpact: Kontext-Kompaktierungs-Proxy für lokale LLMs
Ad

Ctxpact ist ein schlanker, OpenAI-kompatibler Proxy, der zwischen KI-Agenten und lokalen LLMs sitzt und übergroße Eingaben intelligent komprimiert, bevor sie Modelle mit begrenzten Kontextfenstern erreichen. Er ist für agentenbasierte Workflows wie OpenClaw und Hermes konzipiert, die 100k+ Token an Modelle mit nur 16k Kontextfenstern senden, wo ein Abschneiden kritische Informationen verlieren würde.

Wie es funktioniert

Das System verwendet eine 3-stufige Komprimierungspipeline:

  • DCP (Dynamisches Kontext-Beschneiden): Dedupliziert Tool-Aufrufe, entfernt überflüssige Dateischreibvorgänge, kürzt Fehler-Stack-Traces. Keine LLM-Aufrufe, rein strukturell.
  • Zusammenfassen: Entfernt alte Gesprächsrunden und ersetzt sie durch LLM-generierte Zusammenfassungen. Behält ein gleitendes Fenster der letzten Runden intakt.
  • Extrahieren: Wenn die Eingabe immer noch zu groß ist (wie ein 110k-Roman), verwendet es eine von 16 Extraktionsstrategien, um die relevantesten Inhalte innerhalb des Token-Budgets herauszuziehen.

Extraktionsstrategien

Die Extraktionsstufe implementiert 16 Strategien, darunter:

  • 0 LLM-Aufrufe: Ähnlichkeit von Einbettungen (ChromaDB), Abschnittsüberschriften, heuristische Schlüsselwortsuche, LLMLingua-Komprimierung
  • 1 LLM-Aufruf: LLM generiert Suchbegriffe, IDF-gewichtete Wortvergleiche stellen den Kontext zusammen
  • 2 LLM-Aufrufe (beste Genauigkeit): readagent — Einbettung + BM25 + RRF-Fusion, duale LLM-Begriffserweiterung, positionsbewusste Auszüge
  • N LLM-Aufrufe: Mehrstufige Tool-Aufrufschleifen, DSPy-Codegenerierung, Map-Reduce-Chunking

Benchmark-Ergebnisse

12 Strategien wurden an 2 Modellen (LFM2-8B-A1B und Qwen3.5-9B) getestet, insgesamt 331 GGUF-Modelle:

  • Frankenstein-Test: 110k Token auf 12k Token komprimiert, 8 Leseverständnisfragen; 8/8 korrekt, deterministisch über 3 aufeinanderfolgende Durchläufe, 0% Varianz
  • LoCoMo-MC10: Mehrsitzungs-Konversations-Fragen, 10 Auswahlmöglichkeiten, Zufallsbasislinie 10%; readagent + Qwen3.5-9B erzielt 15/20 (75%)
  • Kombinierte Leistung: readagent + Qwen3.5-9B erreicht 87,5%, rlm + Qwen3.5-9B erreicht 80,0%
Ad

Wichtige Erkenntnisse

  • Die Modellwahl ist wichtiger als die Strategiewahl: Der Wechsel von LFM2 zu Qwen3.5 verbesserte jede einzelne Strategie um +25-50 Prozentpunkte. Die Medianstrategie stieg von 5/8 auf 7/8 allein durch den Modellwechsel.
  • NR-MMLU sagt die Leistung im Kontext-Engineering voraus: LFM2s 47% NR-MMLU gegenüber Qwen3.5s 65% korreliert direkt mit den Genauigkeitsunterschieden.
  • 2 LLM-Extraktionsaufrufe sind der Sweet Spot: Der Wechsel von 0 zu 1 Aufruf bringt einen bedeutenden Schub; 1 zu 2 Aufrufe erreichen die maximale Genauigkeit. Über 2 Aufrufe hinaus sinkt die Genauigkeit.
  • readagent und rlm sind bahnbrechende Strategien: Beide erreichen 8/8 im Frankenstein-Test. Nur Strategien, die Frage 4 (Irland-Frage) lösen. readagent führt domänenübergreifend mit 75% LoCoMo gegenüber rlm mit 60%.

Technische Details

  • Architektur: Eigenständiger Proxy (LiteLLM-Plugin und Sidecar-Prozess wurden erwogen), da bahnbrechende Strategien LLM-Aufrufe mitten in der Pipeline benötigen
  • Implementierung: ~11k Zeilen Python, FastAPI-Server, 3 Endpunkte, OpenAI-kompatibel, keine schwergewichtigen Frameworks
  • Kompatibilität: Kann vor jedem llama-server / Ollama / vLLM-Backend eingefügt werden. Keine API-Schlüssel, keine Cloud, alles läuft auf Ihrer Hardware

Für Entwickler, die lokale LLMs mit agentenbasierten Workflows betreiben, die Kontextfenster überschreiten, bietet Ctxpact eine praktische Lösung, um die Informationsintegrität zu wahren und innerhalb der Hardwaregrenzen zu bleiben.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Siehe auch

bunx ccusage zeigt 18.450 Dollar an verbrauchten Credits – Flatpläne absorbieren die Kosten
Werkzeuge

bunx ccusage zeigt 18.450 Dollar an verbrauchten Credits – Flatpläne absorbieren die Kosten

Ein Nutzer auf r/ClaudeAI hat <code>bunx ccusage</code> ausgeführt und dabei festgestellt, dass er im Mai Credits im Wert von 18.450$ verbraucht hat – bei 248M Input-Tokens, 42M Output-Tokens und 21,7B inklusive Cache-Reads – während er nur 400€/Monat Pauschalpreis für Claude Code und Codex bezahlt.

OpenClawRadar
Benutzerdefinierte Reddit MCP für Claude Desktop/Code auf GitHub geteilt
Werkzeuge

Benutzerdefinierte Reddit MCP für Claude Desktop/Code auf GitHub geteilt

Ein Entwickler hat ein selbst erstelltes Reddit MCP veröffentlicht, das speziell für Claude Desktop und Claude Code entwickelt wurde, um Reddit-Recherchen direkt in den Arbeitsablauf zu integrieren. Das Tool ist auf GitHub dokumentiert und steht kostenlos zur Verfügung.

OpenClawRadar
Phaselock: Ein KI-Agenten-Steuerungssystem inspiriert von Erziehungstechniken
Werkzeuge

Phaselock: Ein KI-Agenten-Steuerungssystem inspiriert von Erziehungstechniken

Phaselock ist eine Open-Source-Agent-Skill, die vier Kontrollmechanismen für KI-Agenten implementiert: explizite Gates vor Aktionen, sofortiges Feedback bei Fehlern, eingeschränkte Auswahlmöglichkeiten und mechanische Regelbefolgung. Es funktioniert mit Claude Code, Cursor, Windsurf und Tools, die Hooks unterstützen.

OpenClawRadar
Qwen 3.6 27B F16 besteht den Pacman-Codierungstest, aber 8-Bit-Quantisierungen scheitern — Wichtige Lektionen zu Vorlagen und MTP-spekulativer Dekodierung
Werkzeuge

Qwen 3.6 27B F16 besteht den Pacman-Codierungstest, aber 8-Bit-Quantisierungen scheitern — Wichtige Lektionen zu Vorlagen und MTP-spekulativer Dekodierung

Ein Benutzer erledigt einen Pacman-Klon mit Qwen 3.6 27B F16 in einem Durchgang – zwei von drei Versuchen produzieren fast perfekte Spiele. 8-Bit-Quantisierungen scheitern völlig. Detaillierte Notizen zur Chat-Vorlagenoptimierung und zu MTP-Spekulationsdekodierungsgeschwindigkeitssteigerungen.

OpenClawRadar