AgentCache: 76% Cache-Trefferquote, Halbe Inferenzzeit

agentcache ist eine Python-Bibliothek, die darauf ausgelegt ist, Multi-Agenten-LLM-Systeme durch die Implementierung von Präfix-Caching als Kernfunktion zu optimieren. Die Bibliothek behebt das häufige Problem, bei dem Frameworks wie CrewAI, AutoGen und open-multi-agent für jeden Worker neue Sitzungen erstellen, was zu null Cache-Treffern und doppelten Prompt-Kosten führt.

So funktioniert es

Die Bibliothek arbeitet mit einem Fork-basierten Ansatz anstelle der Erstellung separater Sitzungen:

Starte eine Sitzung mit einem gemeinsamen System-Prompt
Mache den ersten Aufruf – der Anbieter berechnet und speichert das Präfix zwischen
Wenn du N Worker benötigst, forke stattdessen, anstatt N neue Sitzungen zu erstellen
Eltern-Sitzung: [System, Nachricht1, Nachricht2, ...]
Geforkte Sitzung: [System, Nachricht1, Nachricht2, ..., WORKER_AUFGABE]
Exakt dasselbe Präfix = Cache-Treffer

Hauptmerkmale

Cache-sichere Forks: Behält identische Präfixe über Worker-Sitzungen hinweg bei
Cache-Bruch-Erkennung: Vergleicht Snapshots und meldet genau, was sich geändert hat, wenn die Cache-Trefferquote sinkt
Cache-sichere Komprimierung: Für lang laufende Sitzungen werden vor jedem Aufruf alte Tool-Ausgaben gescannt und große Ergebnisse durch deterministische Platzhalter ersetzt, um einen kleineren Kontext bei gleichbleibenden cachefähigen Präfixen zu erhalten
Parameter-Einfrieren: Friert cache-relevante Parameter vor dem Forken ein (System-Prompt, Modell, Tools, Nachrichten, Reasoning-Konfiguration)
Task-DAG-Planung: Ermöglicht parallele Worker aus einer zwischengespeicherten Sitzung

Leistungsergebnisse

In einem direkten Vergleichstest mit GPT-4o-mini (Koordinator + 3 Worker, gleiche Aufgabe):

Text-Injektion / separate Sitzungen: 0 % Cache-Treffer, 85,7 Sekunden
Präfix-Forks: 75,8 % Cache-Treffer, 37,4 Sekunden
Die Cache-Trefferquoten pro Worker liegen typischerweise zwischen 80–99 %

Installation und Verwendung

Installation über pip:

pip install "git+https://github.com/masteragentcoder/agentcache.git@main"

Die Bibliothek ist auf GitHub unter github.com/masteragentcoder/agentcache verfügbar.

📖 Read the full source: r/LocalLLaMA

agentcache: Python-Bibliothek für Multi-Agent-LLM-Präfix-Caching

So funktioniert es

Hauptmerkmale

Leistungsergebnisse

Installation und Verwendung

👀 Siehe auch

Erforschung von macOS's sandbox-exec für sichere Anwendungsausführung

GitVelocity: KI-Auswertung von 50.000 PRs liefert Erkenntnisse zur Code-Komplexität

Mneme: Ein PreToolUse-Hook, der Claude-Code-Bearbeitungen blockiert, die Architekturentscheidungen verletzen

Qwen 3.6 27B F16 besteht den Pacman-Codierungstest, aber 8-Bit-Quantisierungen scheitern — Wichtige Lektionen zu Vorlagen und MTP-spekulativer Dekodierung