CAL: Open-Source Kontextoptimierungsschicht für LLM-Agenten

Was CAL macht
CAL ist eine Python-Bibliothek, die zwischen Ihrem bestehenden Code und LLM-API-Aufrufen sitzt und für jede Anfrage intelligent Kontext auswählt, komprimiert und zusammenstellt. Sie adressiert die Kosten- und Kontextprobleme in tokenlastigen Agenten-Setups, was insbesondere mit den jüngsten Änderungen bei Claude Pro/Max-Abonnements relevant ist.
Leistungsbenchmarks
Im Produktionseinsatz mit Claude Opus 4 und 103 Kontextblöcken:
- Ohne CAL: Jede Anfrage sendet alle 103 Blöcke (~23.000 Tokens) zu $0,043 pro Anfrage
- Mit CAL: Reduziert auf ~6 Blöcke und 4.100 Tokens zu $0,008 pro Anfrage
- Ergebnisse: 83% Reduktion bei Tokens, 81% Reduktion bei Kosten
Validiert mit 5.000 WildChat-Prompts (einem offenen akademischen Datensatz realer LLM-Konversationen in 57 Sprachen) mit durchschnittlich 97,6% Einsparungen.
Hauptfunktionen
- Selector: IDF-gewichtetes Scoring wählt nur relevante Blöcke pro Abfrage aus. Verwendet stabiles Präfix + dynamische Blöcke, die pro Anfrage ausgewählt werden.
- Tool Stubs: Drei-stufiges Lazy Loading von Tools mit leichtgewichtigen Stubs, bis das Modell die Absicht signalisiert, ein bestimmtes Tool zu verwenden.
- Cost Engine: Anbieterbewusster Einsparungsrechner, der Anthropics 4 Eingabestufen und Googles Cache-Speicherpreise kennt.
- Noise Suppression: IDF-Floor + Require-Any-Gates, um zu verhindern, dass häufige Wörter bei jeder Anfrage irrelevante Blöcke laden.
- Cache-Stable Ordering: Verwendet Scores nur für die Auswahl, dann alphabetische Reihenfolge für die Position, um Cache-Treffer beizubehalten.
Technische Details
Mehrfach-Kontexthandhabung: Tool Stubs sind verlaufsbewusst. Wenn das Modell in einer vorherigen Runde ein Tool verwendet hat, bleibt das vollständige Schema geladen, um die Gesprächskontinuität aufrechtzuerhalten.
Anbieterunterstützung: CAL ist anbieterunabhängig und funktioniert mit jedem Anbieter, der einen Chat-Completions-Endpunkt hat. Die Cost Engine behandelt bereits Anthropics 4 Eingabestufen und Googles Cache-Speicherpreise.
Randfälle: Verwendet IDF-Floors und Rauschunterdrückung für mehrdeutige Abfragen. Hybrides Keyword+Semantik-Scoring ist in Planung.
Installation und Lizenzierung
pip install cal-context
MIT lizenziert. PyPI: https://pypi.org/project/cal-context/
GitHub: https://github.com/vjc-lab/context-assembly-layer
📖 Read the full source: r/openclaw
👀 Siehe auch

Vergleich von vier Managed OpenClaw-Hosting-Anbietern für 2026
Ein Entwickler testete vier verwaltete OpenClaw-Hosting-Anbieter über zwei Monate und bewertete sie basierend auf Einrichtungszeit, Verfügbarkeit, Integrationszuverlässigkeit, Modell-Routing, Kosten und der Fähigkeit, mehrstufige Aufgaben ohne Unterbrechung zu bewältigen. LobsterTank kostet 2 $/Monat mit grundlegendem Container-Hosting, KiwiClaw 39 $/Monat mit besserem Support, xCloud 24 $/Monat mit solider Verfügbarkeit und RunLobster 49 $/Monat mit umfangreicher Tool-Integration und Pauschalpreisen.

OpenHelm: Eine macOS-App zur Automatisierung von Claude-Code-Aufgaben
OpenHelm ist eine kostenlose, lokale macOS-Anwendung, die repetitive Claude-Coding-Aufgaben automatisiert, indem sie Jobs nach Zeitplan ausführt, Fehler automatisch wiederholt und Arbeit in Teile aufteilt, um Sitzungslimits zu vermeiden. Sie nutzt Ihr bestehendes Claude-Abonnement für LLM-Aufrufe.

Echo-TTS auf Apple Silicon portiert mit MLX für native TTS mit Sprachklonierung
Echo-TTS, ein 2,4-Milliarden-Parameter-Diffusionsmodell für Text-zu-Sprache mit Sprachklonierung, wurde von CUDA auf MLX portiert, um nativ auf Apple M-Series-Chips zu laufen. Auf einem Basis-Mac mini M4 mit 16 GB dauert die Erstellung eines 5-Sekunden-Sprachklons etwa 10 Sekunden, während 30-Sekunden-Klone ungefähr 60 Sekunden benötigen.

DoomVLM: Open-Source-Tool zum Testen von Vision-Language-Models in Doom-Deathmatches
DoomVLM ist jetzt als einzelnes Jupyter-Notebook quelloffen verfügbar, mit dem Sie Vision-Language-Modelle testen können, die Doom über OpenAI-kompatible APIs spielen. Das Tool unterstützt Deathmatch-Modi, in denen bis zu 4 Modelle gegeneinander antreten können, mit vollständigen Konfigurationsoptionen für System-Prompts, Tool-Beschreibungen und Sampling-Parameter.