agentcache: Biblioteca Python para Cache de Prefixo de LLM Multi-Agente

agentcache é uma biblioteca Python projetada para otimizar sistemas LLM multiagente implementando o cache de prefixos como um recurso central. A biblioteca aborda o problema comum em que frameworks como CrewAI, AutoGen e open-multi-agent criam sessões novas para cada worker, resultando em zero acertos no cache e custos duplicados de prompt.
Como Funciona
A biblioteca opera com uma abordagem baseada em fork em vez de criar sessões separadas:
- Inicie uma sessão com um prompt de sistema compartilhado
- Faça a primeira chamada - o provedor calcula e armazena em cache o prefixo
- Quando você precisa de N workers, faça fork em vez de criar N novas sessões
- Sessão pai: [sistema, msg1, msg2, ...]
- Sessão com fork: [sistema, msg1, msg2, ..., TAREFA_DO_WORKER]
- Prefixo exatamente igual = acerto no cache
Recursos Principais
- Forks seguros para cache: Mantém prefixos idênticos entre sessões de workers
- Detecção de quebra de cache: Compara snapshots e relata exatamente o que mudou quando os acertos no cache caem
- Compactação segura para cache: Para sessões de longa duração, verifica saídas antigas de ferramentas antes de cada chamada e substitui resultados grandes por marcadores determinísticos para manter contexto menor enquanto preserva prefixos armazenáveis em cache
- Congelamento de parâmetros: Congela parâmetros relevantes para o cache antes do fork (prompt do sistema, modelo, ferramentas, mensagens, configuração de raciocínio)
- Agendamento de DAG de tarefas: Permite workers paralelos a partir de uma sessão em cache
Resultados de Desempenho
Em um teste direto com GPT-4o-mini (coordenador + 3 workers, mesma tarefa):
- Injeção de texto / sessões separadas: 0% de acertos no cache, 85,7 segundos
- Forks de prefixo: 75,8% de acertos no cache, 37,4 segundos
- As taxas de acerto no cache por worker normalmente variam de 80-99%
Instalação e Uso
Instale via pip:
pip install "git+https://github.com/masteragentcoder/agentcache.git@main"
A biblioteca está disponível no GitHub em github.com/masteragentcoder/agentcache.
📖 Leia a fonte completa: r/LocalLLaMA
👀 See Also

AGI em md: 11 Níveis de Compressão Cognitiva para Prompts do Sistema Claude
Um repositório do GitHub documenta 11 níveis de compressão cognitiva que podem ser codificados em prompts de sistema do Claude, com o Nível 8 mudando da análise para a construção e melhorando o desempenho do Haiku de 0/3 para 4/4. O projeto inclui 28 prompts, 299 saídas brutas e logs completos de experimentos em 19 domínios.

Ferramenta CLI do Relay salva o contexto da sessão do Claude quando há limitação de taxa
Relay é uma ferramenta CLI em Rust que lê as transcrições de sessão .jsonl do Claude do disco e cria snapshots completos da sua sessão, incluindo conversa, chamadas de ferramentas, tarefas pendentes, estado do git e erros. Ele gera prompts de contexto para retomar sessões após os limites de taxa serem redefinidos.

bareguard: Um Portão de Segurança Leve para Agentes de IA — Agora no npm
bareguard v1.0 é uma camada de segurança de ~1000 linhas e dependência única para agentes de IA que bloqueia ações destrutivas (rm -rf, DROP TABLE) e impõe limites de orçamento com escalonamento humano. Parte do bare suite, disponível no npm.

Anamnese: Um Sistema de Memória Pessoal para Claude via MCP
Anamnese é uma ferramenta gratuita que armazena contexto pessoal — fatos, projetos, metas, tarefas — e se conecta ao Claude via MCP, permitindo que a IA acesse essas informações no início de cada conversa.