Prefex: Ein lokaler Proxy für Claude-Code, der Prompt-Caching und Sitzungsspeicherung automatisiert

✍️ OpenClawRadar📅 Veröffentlicht: 15. April 2026🔗 Source
Prefex: Ein lokaler Proxy für Claude-Code, der Prompt-Caching und Sitzungsspeicherung automatisiert
Ad

Prefex ist ein lokales Proxy-Tool, das entwickelt wurde, um API-Kosten bei der Nutzung von Claude Code zu senken. Es behebt zwei spezifische Kosteneffizienzprobleme: Die Beta-Prompt-Caching-Funktion von Anthropic erfordert manuelle Header-Einfügung, und Claude Code sendet bei jeder Anfrage den gesamten Konversationsverlauf.

Wie es funktioniert

Prefex läuft vollständig auf Ihrem lokalen Rechner als Proxy zwischen Claude Code und der API von Anthropic. Es fügt automatisch den spezifischen Header ein, der benötigt wird, um die Prompt-Caching-Funktion von Anthropic zu aktivieren, wodurch die Kosten für wiederholte Eingabetokens um 90 % reduziert werden. Ohne diesen Header werden alle Anfragen, einschließlich Ihrer CLAUDE.md und des Projektkontexts, zum vollen Preis abgerechnet.

Das Tool implementiert auch Sitzungsspeicher, der verhindert, dass Claude Code bei jeder Runde den gesamten Konversationsverlauf erneut sendet. Zusätzlich enthält es einen Modell-Router, der einfachere Anfragen an günstigere Modelle weiterleiten kann, obwohl diese Funktion während der anfänglichen Testphase nicht aktiv war.

Ad

Leistung und Installation

In einem 4-tägigen Test mit normaler Nutzung:

  • 1.338 Anfragen verarbeitet
  • 49,60 $ tatsächliche Kosten mit Prefex
  • 348 $ geschätzte Kosten ohne Prefex
  • 86 % Einsparungen erzielt (nur mit Caching, ohne Modell-Routing)

Der Entwickler stellt einen Benchmark zur Verfügung, der 5 Fragen zu karpathy/nanoGPT mit kalten und warmen Starts ausführt und etwa 0,03 $ kostet. Die Kostenberechnungen verwenden die tatsächlichen Abrechnungsfelder von Anthropic.

Die Installation erfordert einen curl-Befehl und das Hinzufügen einer Zeile zu settings.json. Das Paket enthält ein Deinstallationsskript. Das Tool arbeitet lokal ohne externe Server, ohne Telemetrie, und API-Schlüssel gehen direkt an Anthropic.

📖 Read the full source: r/ClaudeAI

Ad

👀 Siehe auch

Clawback: Hooks-basierte Implementierung von durchgesickerten Claude-Verifizierungsschleifen
Werkzeuge

Clawback: Hooks-basierte Implementierung von durchgesickerten Claude-Verifizierungsschleifen

Clawback ist ein GitHub-Projekt, das die Verifikationsschleifen aus dem geleakten Claude-Quellcode als mechanische Hooks neu implementiert, anstatt sie als Prompts zu verwenden. Es enthält Stop-Hooks, PreToolUse-, PostToolUse- und PostCompact-Hooks, die vom Modell unter Kontextdruck nicht übersprungen werden können.

OpenClawRadar
Sonarly: KI-gesteuerte Produktionswarnungs-Triage und -Lösung
Werkzeuge

Sonarly: KI-gesteuerte Produktionswarnungs-Triage und -Lösung

Sonarly verbindet sich mit Observability-Tools, um Produktionswarnungen zu priorisieren und zu beheben, Geräusche zu reduzieren und sich auf kritische Probleme zu konzentrieren.

OpenClawRadar
Tokenmeter: Kostenlose Windows-App zur Offline-Verfolgung der Claude Code-Token-Nutzung
Werkzeuge

Tokenmeter: Kostenlose Windows-App zur Offline-Verfolgung der Claude Code-Token-Nutzung

Tokenmeter ist eine kostenlose Open-Source-Windows-App, die lokale Claude Code .jsonl-Dateien ausliest, um Tokenverbrauch, geschätzte Kosten, Cache-Ersparnisse und eine 90-Tage-Aktivitäts-Heatmap anzuzeigen – alles offline.

OpenClawRadar
Reduzierung der Latenz multimodaler Agenten durch Weglassen des Screenshot-Verlaufs
Werkzeuge

Reduzierung der Latenz multimodaler Agenten durch Weglassen des Screenshot-Verlaufs

Ein Entwickler fand heraus, dass das Weglassen früherer Screenshots aus multimodalen Agentenanfragen und das Ersetzen von Base64-Bilddaten durch "[Bild ausgelassen]"-Zeichenketten die Latenz erheblich reduziert, während die Leistung erhalten bleibt. Das Experiment wurde mit Claude durchgeführt und auf GitHub dokumentiert.

OpenClawRadar