CAL: Open-Source Kontextoptimierungsschicht für LLM-Agenten

✍️ OpenClawRadar📅 Veröffentlicht: 15. April 2026🔗 Source
CAL: Open-Source Kontextoptimierungsschicht für LLM-Agenten
Ad

Was CAL macht

CAL ist eine Python-Bibliothek, die zwischen Ihrem bestehenden Code und LLM-API-Aufrufen sitzt und für jede Anfrage intelligent Kontext auswählt, komprimiert und zusammenstellt. Sie adressiert die Kosten- und Kontextprobleme in tokenlastigen Agenten-Setups, was insbesondere mit den jüngsten Änderungen bei Claude Pro/Max-Abonnements relevant ist.

Leistungsbenchmarks

Im Produktionseinsatz mit Claude Opus 4 und 103 Kontextblöcken:

  • Ohne CAL: Jede Anfrage sendet alle 103 Blöcke (~23.000 Tokens) zu $0,043 pro Anfrage
  • Mit CAL: Reduziert auf ~6 Blöcke und 4.100 Tokens zu $0,008 pro Anfrage
  • Ergebnisse: 83% Reduktion bei Tokens, 81% Reduktion bei Kosten

Validiert mit 5.000 WildChat-Prompts (einem offenen akademischen Datensatz realer LLM-Konversationen in 57 Sprachen) mit durchschnittlich 97,6% Einsparungen.

Hauptfunktionen

  • Selector: IDF-gewichtetes Scoring wählt nur relevante Blöcke pro Abfrage aus. Verwendet stabiles Präfix + dynamische Blöcke, die pro Anfrage ausgewählt werden.
  • Tool Stubs: Drei-stufiges Lazy Loading von Tools mit leichtgewichtigen Stubs, bis das Modell die Absicht signalisiert, ein bestimmtes Tool zu verwenden.
  • Cost Engine: Anbieterbewusster Einsparungsrechner, der Anthropics 4 Eingabestufen und Googles Cache-Speicherpreise kennt.
  • Noise Suppression: IDF-Floor + Require-Any-Gates, um zu verhindern, dass häufige Wörter bei jeder Anfrage irrelevante Blöcke laden.
  • Cache-Stable Ordering: Verwendet Scores nur für die Auswahl, dann alphabetische Reihenfolge für die Position, um Cache-Treffer beizubehalten.
Ad

Technische Details

Mehrfach-Kontexthandhabung: Tool Stubs sind verlaufsbewusst. Wenn das Modell in einer vorherigen Runde ein Tool verwendet hat, bleibt das vollständige Schema geladen, um die Gesprächskontinuität aufrechtzuerhalten.

Anbieterunterstützung: CAL ist anbieterunabhängig und funktioniert mit jedem Anbieter, der einen Chat-Completions-Endpunkt hat. Die Cost Engine behandelt bereits Anthropics 4 Eingabestufen und Googles Cache-Speicherpreise.

Randfälle: Verwendet IDF-Floors und Rauschunterdrückung für mehrdeutige Abfragen. Hybrides Keyword+Semantik-Scoring ist in Planung.

Installation und Lizenzierung

pip install cal-context

MIT lizenziert. PyPI: https://pypi.org/project/cal-context/

GitHub: https://github.com/vjc-lab/context-assembly-layer

📖 Read the full source: r/openclaw

Ad

👀 Siehe auch

Vergleich von vier Managed OpenClaw-Hosting-Anbietern für 2026
Werkzeuge

Vergleich von vier Managed OpenClaw-Hosting-Anbietern für 2026

Ein Entwickler testete vier verwaltete OpenClaw-Hosting-Anbieter über zwei Monate und bewertete sie basierend auf Einrichtungszeit, Verfügbarkeit, Integrationszuverlässigkeit, Modell-Routing, Kosten und der Fähigkeit, mehrstufige Aufgaben ohne Unterbrechung zu bewältigen. LobsterTank kostet 2 $/Monat mit grundlegendem Container-Hosting, KiwiClaw 39 $/Monat mit besserem Support, xCloud 24 $/Monat mit solider Verfügbarkeit und RunLobster 49 $/Monat mit umfangreicher Tool-Integration und Pauschalpreisen.

OpenClawRadar
OpenHelm: Eine macOS-App zur Automatisierung von Claude-Code-Aufgaben
Werkzeuge

OpenHelm: Eine macOS-App zur Automatisierung von Claude-Code-Aufgaben

OpenHelm ist eine kostenlose, lokale macOS-Anwendung, die repetitive Claude-Coding-Aufgaben automatisiert, indem sie Jobs nach Zeitplan ausführt, Fehler automatisch wiederholt und Arbeit in Teile aufteilt, um Sitzungslimits zu vermeiden. Sie nutzt Ihr bestehendes Claude-Abonnement für LLM-Aufrufe.

OpenClawRadar
Echo-TTS auf Apple Silicon portiert mit MLX für native TTS mit Sprachklonierung
Werkzeuge

Echo-TTS auf Apple Silicon portiert mit MLX für native TTS mit Sprachklonierung

Echo-TTS, ein 2,4-Milliarden-Parameter-Diffusionsmodell für Text-zu-Sprache mit Sprachklonierung, wurde von CUDA auf MLX portiert, um nativ auf Apple M-Series-Chips zu laufen. Auf einem Basis-Mac mini M4 mit 16 GB dauert die Erstellung eines 5-Sekunden-Sprachklons etwa 10 Sekunden, während 30-Sekunden-Klone ungefähr 60 Sekunden benötigen.

OpenClawRadar
DoomVLM: Open-Source-Tool zum Testen von Vision-Language-Models in Doom-Deathmatches
Werkzeuge

DoomVLM: Open-Source-Tool zum Testen von Vision-Language-Models in Doom-Deathmatches

DoomVLM ist jetzt als einzelnes Jupyter-Notebook quelloffen verfügbar, mit dem Sie Vision-Language-Modelle testen können, die Doom über OpenAI-kompatible APIs spielen. Das Tool unterstützt Deathmatch-Modi, in denen bis zu 4 Modelle gegeneinander antreten können, mit vollständigen Konfigurationsoptionen für System-Prompts, Tool-Beschreibungen und Sampling-Parameter.

OpenClawRadar