agentcache : Bibliothèque Python pour la mise en cache de préfixes LLM multi-agents

✍️ OpenClawRadar📅 Publié: April 13, 2026🔗 Source
agentcache : Bibliothèque Python pour la mise en cache de préfixes LLM multi-agents
Ad

agentcache est une bibliothèque Python conçue pour optimiser les systèmes multi-agents LLM en mettant en œuvre la mise en cache des préfixes comme fonctionnalité principale. La bibliothèque résout le problème courant où des frameworks comme CrewAI, AutoGen et open-multi-agent créent de nouvelles sessions pour chaque travailleur, entraînant zéro succès de cache et des coûts de prompts dupliqués.

Comment ça marche

La bibliothèque fonctionne sur une approche basée sur le fork au lieu de créer des sessions séparées :

  • Démarrer une session avec un prompt système partagé
  • Effectuer le premier appel - le fournisseur calcule et met en cache le préfixe
  • Lorsque vous avez besoin de N travailleurs, forker au lieu de créer N nouvelles sessions
  • Session parent : [système, msg1, msg2, ...]
  • Session forkée : [système, msg1, msg2, ..., TÂCHE_TRAVAILLEUR]
  • Préfixe exactement identique = succès de cache
Ad

Fonctionnalités principales

  • Forks sécurisés pour le cache : Maintient des préfixes identiques à travers les sessions des travailleurs
  • Détection de rupture de cache : Compare les instantanés et rapporte exactement ce qui a changé lorsque les succès de cache diminuent
  • Compactage sécurisé pour le cache : Pour les sessions de longue durée, scanne les anciennes sorties d'outils avant chaque appel et remplace les grands résultats par des marqueurs déterministes pour maintenir un contexte plus petit tout en préservant les préfixes pouvant être mis en cache
  • Gel des paramètres : Gèle les paramètres pertinents pour le cache avant le forking (prompt système, modèle, outils, messages, configuration du raisonnement)
  • Planification DAG des tâches : Permet des travailleurs parallèles à partir d'une session mise en cache

Résultats de performance

Dans un test comparatif avec GPT-4o-mini (coordinateur + 3 travailleurs, même tâche) :

  • Injection de texte / sessions séparées : 0 % de succès de cache, 85,7 secondes
  • Forks de préfixes : 75,8 % de succès de cache, 37,4 secondes
  • Les taux de succès de cache par travailleur varient généralement de 80 à 99 %

Installation et utilisation

Installer via pip :

pip install "git+https://github.com/masteragentcoder/agentcache.git@main"

La bibliothèque est disponible sur GitHub à github.com/masteragentcoder/agentcache.

📖 Read the full source: r/LocalLLaMA

Ad

👀 See Also

Heartbeat-gateway : Remplacement piloté par événements pour le sondage cron dans OpenClaw
Tools

Heartbeat-gateway : Remplacement piloté par événements pour le sondage cron dans OpenClaw

Heartbeat-gateway est un outil Python open-source qui remplace la vérification périodique basée sur cron par des événements déclenchés par webhook pour OpenClaw, réduisant les coûts d'API d'environ 86 $/mois à environ 4,50 $/mois et améliorant la latence de jusqu'à 30 minutes à moins de 2 secondes.

OpenClawRadar
MCP-Loci : Serveur de mémoire persistante locale pour Claude et les IA compatibles MCP
Tools

MCP-Loci : Serveur de mémoire persistante locale pour Claude et les IA compatibles MCP

MCP-Loci est un serveur de mémoire persistante qui résout la limitation de mémoire basée sur les sessions de Claude avec cinq outils : remember, recall, forget, synthesize et health. Il utilise une combinaison d'appariement par mots-clés BM25 et d'incorporations sémantiques pour un rappel précis sans nécessiter de clés API.

OpenClawRadar
Création d'un Guide de Style Rédactionnel Auto-Mise à Jour pour un Contenu Assisté par l'IA
Tools

Création d'un Guide de Style Rédactionnel Auto-Mise à Jour pour un Contenu Assisté par l'IA

Une équipe développant une plateforme d'extraction vocale appelée Noren a créé un guide de style Markdown de 117 lignes qui se réécrit après chaque publication, utilisant Claude pour faire respecter les règles et bannir les mots typiques de l'IA comme 'cadence' et 'optimize'.

OpenClawRadar
L'Agent Web TinyFish Surpasse les Concurrents dans les Tests de Performance de Tâches Web
Tools

L'Agent Web TinyFish Surpasse les Concurrents dans les Tests de Performance de Tâches Web

L'agent web TinyFish a atteint un taux de réussite de 81,9 % sur des tâches web difficiles, surpassant nettement des concurrents comme OpenAI Operator à 43,2 %.

OpenClawRadar