agentcache: Biblioteca de Python para Caché de Prefijos de LLM Multi-Agente

agentcache es una biblioteca de Python diseñada para optimizar sistemas de LLM multiagente implementando el almacenamiento en caché de prefijos como una característica principal. La biblioteca aborda el problema común en el que marcos como CrewAI, AutoGen y open-multi-agent crean sesiones nuevas para cada trabajador, resultando en cero aciertos de caché y costos duplicados de prompts.
Cómo funciona
La biblioteca opera con un enfoque basado en bifurcaciones en lugar de crear sesiones separadas:
- Inicia una sesión con un prompt del sistema compartido
- Realiza la primera llamada: el proveedor calcula y almacena en caché el prefijo
- Cuando necesitas N trabajadores, bifurca en lugar de crear N sesiones nuevas
- Sesión principal: [sistema, msg1, msg2, ...]
- Sesión bifurcada: [sistema, msg1, msg2, ..., TAREA_TRABAJADOR]
- Prefijo exactamente igual = acierto de caché
Características principales
- Bifurcaciones seguras para caché: Mantiene prefijos idénticos entre sesiones de trabajadores
- Detección de ruptura de caché: Compara instantáneas e informa exactamente qué cambió cuando caen los aciertos de caché
- Compactación segura para caché: Para sesiones de larga duración, escanea resultados antiguos de herramientas antes de cada llamada y reemplaza resultados grandes con marcadores deterministas para mantener un contexto más pequeño mientras preserva prefijos almacenables en caché
- Congelación de parámetros: Congela parámetros relevantes para caché antes de bifurcar (prompt del sistema, modelo, herramientas, mensajes, configuración de razonamiento)
- Programación de DAG de tareas: Permite trabajadores paralelos desde una sesión en caché
Resultados de rendimiento
En una prueba directa con GPT-4o-mini (coordinador + 3 trabajadores, misma tarea):
- Inyección de texto / sesiones separadas: 0% aciertos de caché, 85.7 segundos
- Bifurcaciones de prefijos: 75.8% aciertos de caché, 37.4 segundos
- Las tasas de acierto de caché por trabajador típicamente oscilan entre 80-99%
Instalación y uso
Instala mediante pip:
pip install "git+https://github.com/masteragentcoder/agentcache.git@main"
La biblioteca está disponible en GitHub en github.com/masteragentcoder/agentcache.
📖 Read the full source: r/LocalLLaMA
👀 Ver también

Código abierto local cambia automáticamente entre modelos de Claude para reducir costos de IA.
Un desarrollador creó un gancho local para Cursor y Claude Code que analiza las indicaciones y selecciona automáticamente el modelo Claude apropiado (Haiku, Sonnet u Opus) antes de enviar las solicitudes. La herramienta utiliza reglas de palabras clave para clasificar tareas y bloquear escenarios de sobrepago, mostrando un análisis retrospectivo una reducción de costos del 50-70%.

La Ruta Rápida de Búsqueda de Memoria QMD de OpenClaw Tenía Errores Silenciosos
La búsqueda de memoria integrada de OpenClaw utiliza coincidencia básica de palabras clave, pero los usuarios pueden cambiar a QMD para búsqueda semántica en los archivos markdown del espacio de trabajo. Una ruta rápida a través de MCPorter estaba rota con tres errores que hacían que cada llamada fallara silenciosamente y recurriera a la ejecución CLI más lenta.

GlycemicGPT: Monitor de Diabetes AI Autohospedado con BYOAI y SDK de Plugins
GlycemicGPT es una plataforma de código abierto y autoalojada que conecta monitores Dexcom G7 y bombas Tandem con una capa de análisis de IA. Ofrece resúmenes diarios, análisis de comidas, chat conversacional y alertas configurables, todo en tu propio hardware.

Equipo Cerebro: Un Complemento de Memoria Compartida para Claude Code que Almacena el Conocimiento del Equipo en Git
Team Brain es un complemento de Claude Code que almacena el conocimiento del equipo en una carpeta .team-brain/ dentro de tu repositorio. Genera automáticamente un archivo BRAIN.md limitado a 180 líneas para una precisión óptima en las instrucciones de Claude y funciona en diversas herramientas creando archivos .cursorrules y AGENTS.md.