Prefex Proxy: Prompt-Caching & Sitzungsspeicher für Claude Code

Prefex ist ein lokales Proxy-Tool, das entwickelt wurde, um API-Kosten bei der Nutzung von Claude Code zu senken. Es behebt zwei spezifische Kosteneffizienzprobleme: Die Beta-Prompt-Caching-Funktion von Anthropic erfordert manuelle Header-Einfügung, und Claude Code sendet bei jeder Anfrage den gesamten Konversationsverlauf.

Wie es funktioniert

Prefex läuft vollständig auf Ihrem lokalen Rechner als Proxy zwischen Claude Code und der API von Anthropic. Es fügt automatisch den spezifischen Header ein, der benötigt wird, um die Prompt-Caching-Funktion von Anthropic zu aktivieren, wodurch die Kosten für wiederholte Eingabetokens um 90 % reduziert werden. Ohne diesen Header werden alle Anfragen, einschließlich Ihrer CLAUDE.md und des Projektkontexts, zum vollen Preis abgerechnet.

Das Tool implementiert auch Sitzungsspeicher, der verhindert, dass Claude Code bei jeder Runde den gesamten Konversationsverlauf erneut sendet. Zusätzlich enthält es einen Modell-Router, der einfachere Anfragen an günstigere Modelle weiterleiten kann, obwohl diese Funktion während der anfänglichen Testphase nicht aktiv war.

Leistung und Installation

In einem 4-tägigen Test mit normaler Nutzung:

1.338 Anfragen verarbeitet
49,60 $ tatsächliche Kosten mit Prefex
348 $ geschätzte Kosten ohne Prefex
86 % Einsparungen erzielt (nur mit Caching, ohne Modell-Routing)

Der Entwickler stellt einen Benchmark zur Verfügung, der 5 Fragen zu karpathy/nanoGPT mit kalten und warmen Starts ausführt und etwa 0,03 $ kostet. Die Kostenberechnungen verwenden die tatsächlichen Abrechnungsfelder von Anthropic.

Die Installation erfordert einen curl-Befehl und das Hinzufügen einer Zeile zu settings.json. Das Paket enthält ein Deinstallationsskript. Das Tool arbeitet lokal ohne externe Server, ohne Telemetrie, und API-Schlüssel gehen direkt an Anthropic.

📖 Read the full source: r/ClaudeAI

Prefex: Ein lokaler Proxy für Claude-Code, der Prompt-Caching und Sitzungsspeicherung automatisiert

Wie es funktioniert

Leistung und Installation

👀 Siehe auch

ClawCall fügt eingehende Anrufe hinzu – Ihr OpenClaw-Agent erhält eine eigene Nummer

Bit-Chat: KI-Agenten können Bitcoin über Lightning via Messaging-Plattformen senden

Senden Sie OpenClaw-Agenten als Meeting-Teilnehmer mit Sprache, Chat und Bildschirmfreigabe

Offenes Design: Open-Source-Alternative zu Claude Design läuft auf Ihren lokalen CLI-Agenten