CAL : Réduisez de 83% vos tokens API Claude

Ce que fait CAL

CAL est une bibliothèque Python qui s'intercale entre votre code existant et les appels d'API LLM, sélectionnant, compressant et assemblant intelligemment le contexte pour chaque requête. Elle répond aux problèmes de coût et de contexte dans les configurations d'agents gourmands en tokens, particulièrement pertinents avec les récents changements d'abonnement Claude Pro/Max.

Performances de référence

En production avec Claude Opus 4 et 103 morceaux de contexte :

Sans CAL : Chaque requête envoie les 103 morceaux (~23 000 tokens) à 0,043 $ par requête
Avec CAL : Réduit à ~6 morceaux et 4 100 tokens à 0,008 $ par requête
Résultats : Réduction de 83 % des tokens, réduction de 81 % du coût

Validé sur 5 000 invites WildChat (un jeu de données académique ouvert de conversations réelles d'LLM dans 57 langues) avec une économie moyenne de 97,6 %.

Fonctionnalités clés

Sélecteur : Un score pondéré par IDF sélectionne uniquement les morceaux pertinents par requête. Utilise un préfixe stable + des morceaux dynamiques sélectionnés par requête.
Ébauches d'outils : Chargement paresseux à trois niveaux avec des ébauches légères jusqu'à ce que le modèle signale l'intention d'utiliser un outil spécifique.
Moteur de coût : Calculateur d'économies conscient du fournisseur qui connaît les 4 niveaux d'entrée d'Anthropic et les tarifs de stockage en cache de Google.
Suppression du bruit : Seuil IDF + portes "require-any" pour empêcher les mots courants de charger des morceaux non pertinents à chaque requête.
Ordonnancement stable pour le cache : Utilise les scores uniquement pour la sélection, puis l'ordre alphabétique pour la position afin de maintenir les succès de cache.

Détails techniques

Gestion du contexte multi-tours : Les ébauches d'outils sont conscientes de l'historique. Si le modèle a utilisé un outil dans un tour précédent, le schéma complet reste chargé pour maintenir la continuité de la conversation.

Support des fournisseurs : CAL est agnostique des fournisseurs et fonctionne avec tout fournisseur ayant un point de terminaison de complétion de chat. Le moteur de coût gère déjà les 4 niveaux d'entrée d'Anthropic et les tarifs de stockage en cache de Google.

Cas limites : Utilise des seuils IDF et une suppression du bruit pour les requêtes ambiguës. Un score hybride mot-clé+sémantique est prévu.

Installation et licence

pip install cal-context

Sous licence MIT. PyPI : https://pypi.org/project/cal-context/

GitHub : https://github.com/vjc-lab/context-assembly-layer

📖 Read the full source: r/openclaw

CAL : Couche d'Optimisation de Contexte Open-Source pour Agents LLM

Ce que fait CAL

Performances de référence

Fonctionnalités clés

Détails techniques

Installation et licence

👀 See Also

gui.new : Outil permettant à Claude de générer des sorties visuelles sous forme de liens partageables

Claude Session Tracker : Sauvegarde automatique des sessions de code Claude vers les problèmes GitHub

BrightBean Studio : Plateforme open-source de gestion des médias sociaux développée avec des agents IA

Claude Skill open-source structure les connaissances sur la croissance des SaaS B2B pour un raisonnement IA cohérent