agentcache : Bibliothèque Python pour la mise en cache de préfixes LLM multi-agents

agentcache est une bibliothèque Python conçue pour optimiser les systèmes multi-agents LLM en mettant en œuvre la mise en cache des préfixes comme fonctionnalité principale. La bibliothèque résout le problème courant où des frameworks comme CrewAI, AutoGen et open-multi-agent créent de nouvelles sessions pour chaque travailleur, entraînant zéro succès de cache et des coûts de prompts dupliqués.
Comment ça marche
La bibliothèque fonctionne sur une approche basée sur le fork au lieu de créer des sessions séparées :
- Démarrer une session avec un prompt système partagé
- Effectuer le premier appel - le fournisseur calcule et met en cache le préfixe
- Lorsque vous avez besoin de N travailleurs, forker au lieu de créer N nouvelles sessions
- Session parent : [système, msg1, msg2, ...]
- Session forkée : [système, msg1, msg2, ..., TÂCHE_TRAVAILLEUR]
- Préfixe exactement identique = succès de cache
Fonctionnalités principales
- Forks sécurisés pour le cache : Maintient des préfixes identiques à travers les sessions des travailleurs
- Détection de rupture de cache : Compare les instantanés et rapporte exactement ce qui a changé lorsque les succès de cache diminuent
- Compactage sécurisé pour le cache : Pour les sessions de longue durée, scanne les anciennes sorties d'outils avant chaque appel et remplace les grands résultats par des marqueurs déterministes pour maintenir un contexte plus petit tout en préservant les préfixes pouvant être mis en cache
- Gel des paramètres : Gèle les paramètres pertinents pour le cache avant le forking (prompt système, modèle, outils, messages, configuration du raisonnement)
- Planification DAG des tâches : Permet des travailleurs parallèles à partir d'une session mise en cache
Résultats de performance
Dans un test comparatif avec GPT-4o-mini (coordinateur + 3 travailleurs, même tâche) :
- Injection de texte / sessions séparées : 0 % de succès de cache, 85,7 secondes
- Forks de préfixes : 75,8 % de succès de cache, 37,4 secondes
- Les taux de succès de cache par travailleur varient généralement de 80 à 99 %
Installation et utilisation
Installer via pip :
pip install "git+https://github.com/masteragentcoder/agentcache.git@main"
La bibliothèque est disponible sur GitHub à github.com/masteragentcoder/agentcache.
📖 Read the full source: r/LocalLLaMA
👀 See Also

Heartbeat-gateway : Remplacement piloté par événements pour le sondage cron dans OpenClaw
Heartbeat-gateway est un outil Python open-source qui remplace la vérification périodique basée sur cron par des événements déclenchés par webhook pour OpenClaw, réduisant les coûts d'API d'environ 86 $/mois à environ 4,50 $/mois et améliorant la latence de jusqu'à 30 minutes à moins de 2 secondes.

MCP-Loci : Serveur de mémoire persistante locale pour Claude et les IA compatibles MCP
MCP-Loci est un serveur de mémoire persistante qui résout la limitation de mémoire basée sur les sessions de Claude avec cinq outils : remember, recall, forget, synthesize et health. Il utilise une combinaison d'appariement par mots-clés BM25 et d'incorporations sémantiques pour un rappel précis sans nécessiter de clés API.

Création d'un Guide de Style Rédactionnel Auto-Mise à Jour pour un Contenu Assisté par l'IA
Une équipe développant une plateforme d'extraction vocale appelée Noren a créé un guide de style Markdown de 117 lignes qui se réécrit après chaque publication, utilisant Claude pour faire respecter les règles et bannir les mots typiques de l'IA comme 'cadence' et 'optimize'.

L'Agent Web TinyFish Surpasse les Concurrents dans les Tests de Performance de Tâches Web
L'agent web TinyFish a atteint un taux de réussite de 81,9 % sur des tâches web difficiles, surpassant nettement des concurrents comme OpenAI Operator à 43,2 %.