RelayPlane Open Source Proxy zeigt 73 % Kostensenkung durch Claude-Modell-Routing

Open-Source-Proxy für Claude-API-Routing
RelayPlane ist ein Open-Source-, npm-nativer Proxy, der vor der Anthropic API sitzt. Das Tool wurde mit Claude Code entwickelt, was die Entwicklung beschleunigte. Es ist kostenlos selbst zu hosten und dafür ausgelegt, das Routing zwischen verschiedenen Claude-Modellen basierend auf der Eingabeaufforderungskomplexität zu handhaben.
Benchmark-Ergebnisse und Konfiguration
Der Benchmark verwendete eine gemischte Arbeitslast mit 60 % einfachen und 40 % komplexen Aufgaben. Zwei Szenarien wurden verglichen:
- Direkt (alle Sonnet): p50-Latenz 1,55 s, Kosten pro 10 Anfragen 0,0323 $
- Über RelayPlane mit Routing: p50-Latenz 0,78 s, Kosten pro 10 Anfragen 0,0086 $
Dies entspricht einer Kostensenkung von 73,4 %. Bei 10.000 Anfragen pro Tag entspricht dies etwa 712 $ monatlicher Einsparungen.
Routing-Konfiguration
Die Routing-Konfiguration ist unkompliziert:
{
"routing": {
"complexity": {
"enabled": true,
"simple": "claude-haiku-4-5",
"moderate": "claude-sonnet-4-6",
"complex": "claude-opus-4-6"
}
}
}Die Routing-Logik verwendet einen Komplexitätsklassifikator, der Tokenanzahl, Code-Indikatoren und analytische Schlüsselwörter prüft. Antwort-Header enthalten x-relayplane-routed-model, um zu überprüfen, welches Modell die Anfrage tatsächlich verarbeitet hat.
Modellpreise und Routing-Logik
Das Routing-System leitet Eingabeaufforderungen basierend auf der Komplexität an geeignete Modelle weiter:
- Einfache Eingabeaufforderungen → Haiku (0,80 $ pro Million Token)
- Mittlere Eingabeaufforderungen → Sonnet (3 $ pro Million Token)
- Komplexe Eingabeaufforderungen → Opus (15 $ pro Million Token)
Der Autor merkt an, dass der Klassifikator nicht perfekt ist, aber "gut genug, um den größten Teil der Einsparungen zu erfassen". Die vollständige Benchmark-Methodik ist in einem Gist verfügbar, der im Quellmaterial verlinkt ist.
📖 Read the full source: r/ClaudeAI
👀 Siehe auch

Libretto: Deterministische Browser-Automatisierungserzeugung für KI-Codierungsagenten
Libretto ist ein Skill+CLI-Toolkit, das KI-Coding-Agenten ermöglicht, deterministische Browser-Automatisierungsskripte als echten Code zu generieren, weg von Laufzeit-KI-Agenten. Es kombiniert Playwright-UI-Automatisierung mit direkten Netzwerk-/API-Anfragen für Zuverlässigkeit und umfasst schrittweises Debugging und Nur-Lese-Modi.

Engram v1.0.0: Persistenter Speicher für lokale LLMs über ein Wissensnetz
Engram ist eine einzelne Binärdatei, die lokalen LLMs durch ein Wissensgraphensystem persistente Erinnerung bietet. Es enthält einen MCP-Server für die Integration mit Claude Code, Cursor und Windsurf, speichert alle Daten in einer einzigen .brain-Datei und läuft vollständig offline.
Nadel: Ein 26M-Parameter-Funktionsaufrufmodell mit 6000 Tok/s auf Mobilgeräten
Cactus veröffentlicht Needle als Open Source, ein 26M-Parameter-Modell für einmaligen Funktionsaufruf, das 6000 tok/s Prefill und 1200 tok/s Decoding auf Verbrauchergeräten erreicht. Es basiert auf Simple Attention Networks (ohne FFNs) und übertrifft mehrere größere Modelle in Tool-Use-Benchmarks.

Manifest fügt MiniMax-Token-Pläne mit M2.7-Modellunterstützung hinzu
Manifest, eine Open-Source-Routing-Schicht für OpenClaw, unterstützt jetzt MiniMax-Token-Pläne ab 10 US-Dollar pro Monat. Das neue MiniMax M2.7-Modell wurde speziell für OpenClaw-Workflows entwickelt und erreicht 62,7 auf MM-ClawBench und 56,2 auf SWE-Bench Pro.