Prefex: Ein lokaler Proxy für Claude-Code, der Prompt-Caching und Sitzungsspeicherung automatisiert

Prefex ist ein lokales Proxy-Tool, das entwickelt wurde, um API-Kosten bei der Nutzung von Claude Code zu senken. Es behebt zwei spezifische Kosteneffizienzprobleme: Die Beta-Prompt-Caching-Funktion von Anthropic erfordert manuelle Header-Einfügung, und Claude Code sendet bei jeder Anfrage den gesamten Konversationsverlauf.
Wie es funktioniert
Prefex läuft vollständig auf Ihrem lokalen Rechner als Proxy zwischen Claude Code und der API von Anthropic. Es fügt automatisch den spezifischen Header ein, der benötigt wird, um die Prompt-Caching-Funktion von Anthropic zu aktivieren, wodurch die Kosten für wiederholte Eingabetokens um 90 % reduziert werden. Ohne diesen Header werden alle Anfragen, einschließlich Ihrer CLAUDE.md und des Projektkontexts, zum vollen Preis abgerechnet.
Das Tool implementiert auch Sitzungsspeicher, der verhindert, dass Claude Code bei jeder Runde den gesamten Konversationsverlauf erneut sendet. Zusätzlich enthält es einen Modell-Router, der einfachere Anfragen an günstigere Modelle weiterleiten kann, obwohl diese Funktion während der anfänglichen Testphase nicht aktiv war.
Leistung und Installation
In einem 4-tägigen Test mit normaler Nutzung:
- 1.338 Anfragen verarbeitet
- 49,60 $ tatsächliche Kosten mit Prefex
- 348 $ geschätzte Kosten ohne Prefex
- 86 % Einsparungen erzielt (nur mit Caching, ohne Modell-Routing)
Der Entwickler stellt einen Benchmark zur Verfügung, der 5 Fragen zu karpathy/nanoGPT mit kalten und warmen Starts ausführt und etwa 0,03 $ kostet. Die Kostenberechnungen verwenden die tatsächlichen Abrechnungsfelder von Anthropic.
Die Installation erfordert einen curl-Befehl und das Hinzufügen einer Zeile zu settings.json. Das Paket enthält ein Deinstallationsskript. Das Tool arbeitet lokal ohne externe Server, ohne Telemetrie, und API-Schlüssel gehen direkt an Anthropic.
📖 Read the full source: r/ClaudeAI
👀 Siehe auch

Clawback: Hooks-basierte Implementierung von durchgesickerten Claude-Verifizierungsschleifen
Clawback ist ein GitHub-Projekt, das die Verifikationsschleifen aus dem geleakten Claude-Quellcode als mechanische Hooks neu implementiert, anstatt sie als Prompts zu verwenden. Es enthält Stop-Hooks, PreToolUse-, PostToolUse- und PostCompact-Hooks, die vom Modell unter Kontextdruck nicht übersprungen werden können.

Sonarly: KI-gesteuerte Produktionswarnungs-Triage und -Lösung
Sonarly verbindet sich mit Observability-Tools, um Produktionswarnungen zu priorisieren und zu beheben, Geräusche zu reduzieren und sich auf kritische Probleme zu konzentrieren.

Tokenmeter: Kostenlose Windows-App zur Offline-Verfolgung der Claude Code-Token-Nutzung
Tokenmeter ist eine kostenlose Open-Source-Windows-App, die lokale Claude Code .jsonl-Dateien ausliest, um Tokenverbrauch, geschätzte Kosten, Cache-Ersparnisse und eine 90-Tage-Aktivitäts-Heatmap anzuzeigen – alles offline.

Reduzierung der Latenz multimodaler Agenten durch Weglassen des Screenshot-Verlaufs
Ein Entwickler fand heraus, dass das Weglassen früherer Screenshots aus multimodalen Agentenanfragen und das Ersetzen von Base64-Bilddaten durch "[Bild ausgelassen]"-Zeichenketten die Latenz erheblich reduziert, während die Leistung erhalten bleibt. Das Experiment wurde mit Claude durchgeführt und auf GitHub dokumentiert.