Prefex: Proxy Local para Cache de Prompts e Memória de Sessão no Claude Code

Prefex é uma ferramenta de proxy local projetada para reduzir os custos da API ao usar o Claude Code. Ela aborda duas ineficiências de custo específicas: o recurso de cache de prompts beta da Anthropic requer injeção manual de cabeçalho, e o Claude Code envia o histórico completo da conversa com cada solicitação.

Como Funciona

Prefex é executado inteiramente na sua máquina local como um proxy entre o Claude Code e a API da Anthropic. Ele injeta automaticamente o cabeçalho específico necessário para ativar o recurso de cache de prompts da Anthropic, que reduz os custos para tokens de entrada repetidos em 90%. Sem esse cabeçalho, todas as solicitações, incluindo seu CLAUDE.md e contexto do projeto, são cobradas pelo preço total.

A ferramenta também implementa memória de sessão, impedindo que o Claude Code reenvie todo o histórico da conversa a cada turno. Além disso, inclui um roteador de modelos que pode direcionar consultas mais simples para modelos mais baratos, embora esse recurso não estivesse ativo durante o período inicial de testes.

Desempenho e Instalação

Em um teste de 4 dias com uso normal:

1.338 solicitações processadas
Custo real de $49,60 com Prefex
Custo estimado de $348 sem Prefex
Economia de 86% alcançada (apenas com cache, sem roteamento de modelos)

O desenvolvedor fornece um benchmark que executa 5 perguntas no karpathy/nanoGPT com inicializações a frio e a quente, custando aproximadamente $0,03. Os cálculos de custo usam os campos reais de cobrança da Anthropic.

A instalação requer um comando curl e adicionar uma linha ao settings.json. O pacote inclui um script de desinstalação. A ferramenta opera localmente sem servidores externos, sem telemetria, e as chaves de API vão diretamente para a Anthropic.

📖 Read the full source: r/ClaudeAI

Prefex: Um Proxy Local para o Código Claude que Automatiza o Cache de Prompts e a Memória de Sessão

Como Funciona

Desempenho e Instalação

👀 See Also

Pesquisa Aura: Ferramenta local compila documentos em wiki navegável por IA com memória persistente

AgenteOS Hollow Reduz Uso de Tokens de Código do Claude em 68,5% com Abordagem de Sistema Operacional Nativo em JSON

Claude TimeTrack: aplicativo da barra de menus do macOS que lê arquivos JSONL do Claude Code para rastrear automaticamente o tempo de desenvolvimento por projeto

Implante o OpenClaw no VPS com um CLI de um único comando