Prefex: Um Proxy Local para o Código Claude que Automatiza o Cache de Prompts e a Memória de Sessão

Prefex é uma ferramenta de proxy local projetada para reduzir os custos da API ao usar o Claude Code. Ela aborda duas ineficiências de custo específicas: o recurso de cache de prompts beta da Anthropic requer injeção manual de cabeçalho, e o Claude Code envia o histórico completo da conversa com cada solicitação.
Como Funciona
Prefex é executado inteiramente na sua máquina local como um proxy entre o Claude Code e a API da Anthropic. Ele injeta automaticamente o cabeçalho específico necessário para ativar o recurso de cache de prompts da Anthropic, que reduz os custos para tokens de entrada repetidos em 90%. Sem esse cabeçalho, todas as solicitações, incluindo seu CLAUDE.md e contexto do projeto, são cobradas pelo preço total.
A ferramenta também implementa memória de sessão, impedindo que o Claude Code reenvie todo o histórico da conversa a cada turno. Além disso, inclui um roteador de modelos que pode direcionar consultas mais simples para modelos mais baratos, embora esse recurso não estivesse ativo durante o período inicial de testes.
Desempenho e Instalação
Em um teste de 4 dias com uso normal:
- 1.338 solicitações processadas
- Custo real de $49,60 com Prefex
- Custo estimado de $348 sem Prefex
- Economia de 86% alcançada (apenas com cache, sem roteamento de modelos)
O desenvolvedor fornece um benchmark que executa 5 perguntas no karpathy/nanoGPT com inicializações a frio e a quente, custando aproximadamente $0,03. Os cálculos de custo usam os campos reais de cobrança da Anthropic.
A instalação requer um comando curl e adicionar uma linha ao settings.json. O pacote inclui um script de desinstalação. A ferramenta opera localmente sem servidores externos, sem telemetria, e as chaves de API vão diretamente para a Anthropic.
📖 Read the full source: r/ClaudeAI
👀 See Also

Auto-otimização: Um Plugin de Código Claude para Otimização Autônoma de Desempenho
Um desenvolvedor criou o auto-optimize, um plugin do Claude Code que executa loops autônomos de perfil → planejamento → benchmark para otimizar o desempenho do código. Em um teste, ele alcançou uma tabela de hash 27% mais rápida em todos os cenários de benchmark em cerca de 3 horas.

O projeto de autoresearch de Karpathy: agentes de IA executam experimentos de treinamento de LLM durante a noite.
Andrej Karpathy lançou um projeto de autoresearch minimalista onde um agente de IA edita o train.py, executa experimentos de treinamento nanochat de 5 minutos, verifica se o val_bpb melhorou e repete durante a noite em uma única GPU.

Repositório de Boas Práticas do Claude Code Alcança 50 Mil Estrelas, Construído Inteiramente com Agentes de IA
Um repositório do GitHub repleto de melhores práticas para o Claude, 100% desenvolvido e mantido por fluxos de trabalho autônomos do Claude Code, ultrapassou 50.000 estrelas — tornando-se o repositório mais estrelado do Paquistão em 2026.

Servidor MCP da Detrix Adiciona Depuração em Tempo de Execução a Agentes de Codificação de IA
Detrix é um servidor MCP gratuito e de código aberto que permite que agentes compatíveis com MCP observem variáveis ativas em código em execução sem reinicializações ou alterações no código. Ele suporta aplicações em Python, Go e Rust rodando localmente ou no Docker.