Prefex : Un proxy local pour Claude Code qui automatise la mise en cache des invites et la mémoire de session

✍️ OpenClawRadar📅 Publié: April 15, 2026🔗 Source
Prefex : Un proxy local pour Claude Code qui automatise la mise en cache des invites et la mémoire de session
Ad

Prefex est un outil proxy local conçu pour réduire les coûts d'API lors de l'utilisation de Claude Code. Il traite deux inefficacités spécifiques en matière de coûts : la fonctionnalité bêta de mise en cache des prompts d'Anthropic nécessite une injection manuelle d'en-tête, et Claude Code envoie l'historique complet des conversations avec chaque requête.

Fonctionnement

Prefex s'exécute entièrement sur votre machine locale en tant que proxy entre Claude Code et l'API d'Anthropic. Il injecte automatiquement l'en-tête spécifique nécessaire pour activer la fonctionnalité de mise en cache des prompts d'Anthropic, ce qui réduit les coûts des jetons d'entrée répétés de 90 %. Sans cet en-tête, toutes les requêtes, y compris votre CLAUDE.md et le contexte du projet, sont facturées au prix plein.

L'outil implémente également une mémoire de session, empêchant Claude Code de renvoyer l'intégralité de l'historique des conversations à chaque tour. De plus, il inclut un routeur de modèles qui peut acheminer les requêtes plus simples vers des modèles moins chers, bien que cette fonctionnalité n'était pas active pendant la période de test initiale.

Ad

Performance et Installation

Lors d'un test de 4 jours avec une utilisation normale :

  • 1 338 requêtes traitées
  • 49,60 $ de coût réel avec Prefex
  • 348 $ de coût estimé sans Prefex
  • 86 % d'économies réalisées (avec mise en cache uniquement, sans routage de modèles)

Le développeur fournit un benchmark qui exécute 5 questions sur karpathy/nanoGPT avec des démarrages à froid et à chaud, coûtant environ 0,03 $. Les calculs de coût utilisent les champs de facturation réels d'Anthropic.

L'installation nécessite une commande curl et l'ajout d'une ligne dans settings.json. Le package inclut un script de désinstallation. L'outil fonctionne localement sans serveurs externes, sans télémétrie, et les clés API vont directement à Anthropic.

📖 Lire la source complète : r/ClaudeAI

Ad

👀 See Also

Hypura : Planificateur d'inférence LLM optimisé pour les niveaux de stockage des puces Apple Silicon
Tools

Hypura : Planificateur d'inférence LLM optimisé pour les niveaux de stockage des puces Apple Silicon

Hypura est un planificateur d'inférence basé sur Rust qui répartit les tenseurs du modèle entre les niveaux GPU, RAM et NVMe pour exécuter des modèles dépassant la mémoire physique sur les Mac à puce Apple Silicon. Il permet d'exécuter un Mixtral 8x7B de 31 Go sur un Mac Mini 32 Go à 2,2 tok/s et un Llama 70B de 40 Go à 0,3 tok/s là où llama.cpp standard plante.

OpenClawRadar
Lumyr : Génération de Tableaux de Bord via Claude avec Automatisation Python et Streamlit
Tools

Lumyr : Génération de Tableaux de Bord via Claude avec Automatisation Python et Streamlit

Lumyr est un outil qui génère des tableaux de bord en direct et partageables à partir de descriptions en anglais simple, utilisant Claude pour la génération des tableaux de bord et automatisant la couche Python et Streamlit. Les utilisateurs n'ont pas besoin d'écrire du Python, d'ouvrir Streamlit, de déployer, de configurer l'hébergement ou de gérer l'infrastructure.

OpenClawRadar
Claude Code Mode Auto : Une alternative plus sûre à l'ignorance des autorisations
Tools

Claude Code Mode Auto : Une alternative plus sûre à l'ignorance des autorisations

Claude Code propose désormais le mode auto, un mode de permissions où Claude prend des décisions de permissions avec des garde-fous surveillant les actions avant leur exécution. Il est disponible en aperçu de recherche pour les utilisateurs du plan Team, avec un déploiement pour Enterprise et l'API prévu prochainement.

OpenClawRadar
Monarch v3 : Pagination KV inspirée du NES pour une inférence LLM 78 % plus rapide
Tools

Monarch v3 : Pagination KV inspirée du NES pour une inférence LLM 78 % plus rapide

Monarch v3 implémente une pagination mémoire inspirée de la NES pour les transformers, obtenant une inférence 78 % plus rapide (17,01 à 30,42 tok/sec) sur un modèle de 1,1B paramètres avec une surcharge VRAM quasi nulle. L'algorithme open-source divise le cache KV en régions chaude et froide avec des mécanismes de compression et de promotion.

OpenClawRadar