CAL: LLM-Kontextoptimierung um 83% Reduzierung

Was CAL macht

CAL ist eine Python-Bibliothek, die zwischen Ihrem bestehenden Code und LLM-API-Aufrufen sitzt und für jede Anfrage intelligent Kontext auswählt, komprimiert und zusammenstellt. Sie adressiert die Kosten- und Kontextprobleme in tokenlastigen Agenten-Setups, was insbesondere mit den jüngsten Änderungen bei Claude Pro/Max-Abonnements relevant ist.

Leistungsbenchmarks

Im Produktionseinsatz mit Claude Opus 4 und 103 Kontextblöcken:

Ohne CAL: Jede Anfrage sendet alle 103 Blöcke (~23.000 Tokens) zu $0,043 pro Anfrage
Mit CAL: Reduziert auf ~6 Blöcke und 4.100 Tokens zu $0,008 pro Anfrage
Ergebnisse: 83% Reduktion bei Tokens, 81% Reduktion bei Kosten

Validiert mit 5.000 WildChat-Prompts (einem offenen akademischen Datensatz realer LLM-Konversationen in 57 Sprachen) mit durchschnittlich 97,6% Einsparungen.

Hauptfunktionen

Selector: IDF-gewichtetes Scoring wählt nur relevante Blöcke pro Abfrage aus. Verwendet stabiles Präfix + dynamische Blöcke, die pro Anfrage ausgewählt werden.
Tool Stubs: Drei-stufiges Lazy Loading von Tools mit leichtgewichtigen Stubs, bis das Modell die Absicht signalisiert, ein bestimmtes Tool zu verwenden.
Cost Engine: Anbieterbewusster Einsparungsrechner, der Anthropics 4 Eingabestufen und Googles Cache-Speicherpreise kennt.
Noise Suppression: IDF-Floor + Require-Any-Gates, um zu verhindern, dass häufige Wörter bei jeder Anfrage irrelevante Blöcke laden.
Cache-Stable Ordering: Verwendet Scores nur für die Auswahl, dann alphabetische Reihenfolge für die Position, um Cache-Treffer beizubehalten.

Technische Details

Mehrfach-Kontexthandhabung: Tool Stubs sind verlaufsbewusst. Wenn das Modell in einer vorherigen Runde ein Tool verwendet hat, bleibt das vollständige Schema geladen, um die Gesprächskontinuität aufrechtzuerhalten.

Anbieterunterstützung: CAL ist anbieterunabhängig und funktioniert mit jedem Anbieter, der einen Chat-Completions-Endpunkt hat. Die Cost Engine behandelt bereits Anthropics 4 Eingabestufen und Googles Cache-Speicherpreise.

Randfälle: Verwendet IDF-Floors und Rauschunterdrückung für mehrdeutige Abfragen. Hybrides Keyword+Semantik-Scoring ist in Planung.