RelayPlane: 73% Kosten senken mit Claude-Modell-Routing

Open-Source-Proxy für Claude-API-Routing

RelayPlane ist ein Open-Source-, npm-nativer Proxy, der vor der Anthropic API sitzt. Das Tool wurde mit Claude Code entwickelt, was die Entwicklung beschleunigte. Es ist kostenlos selbst zu hosten und dafür ausgelegt, das Routing zwischen verschiedenen Claude-Modellen basierend auf der Eingabeaufforderungskomplexität zu handhaben.

Benchmark-Ergebnisse und Konfiguration

Der Benchmark verwendete eine gemischte Arbeitslast mit 60 % einfachen und 40 % komplexen Aufgaben. Zwei Szenarien wurden verglichen:

Direkt (alle Sonnet): p50-Latenz 1,55 s, Kosten pro 10 Anfragen 0,0323 $
Über RelayPlane mit Routing: p50-Latenz 0,78 s, Kosten pro 10 Anfragen 0,0086 $

Dies entspricht einer Kostensenkung von 73,4 %. Bei 10.000 Anfragen pro Tag entspricht dies etwa 712 $ monatlicher Einsparungen.

Routing-Konfiguration

Die Routing-Konfiguration ist unkompliziert:

{
  "routing": {
    "complexity": {
      "enabled": true,
      "simple": "claude-haiku-4-5",
      "moderate": "claude-sonnet-4-6",
      "complex": "claude-opus-4-6"
    }
  }
}

Die Routing-Logik verwendet einen Komplexitätsklassifikator, der Tokenanzahl, Code-Indikatoren und analytische Schlüsselwörter prüft. Antwort-Header enthalten x-relayplane-routed-model, um zu überprüfen, welches Modell die Anfrage tatsächlich verarbeitet hat.

Modellpreise und Routing-Logik

Das Routing-System leitet Eingabeaufforderungen basierend auf der Komplexität an geeignete Modelle weiter:

Einfache Eingabeaufforderungen → Haiku (0,80 $ pro Million Token)
Mittlere Eingabeaufforderungen → Sonnet (3 $ pro Million Token)
Komplexe Eingabeaufforderungen → Opus (15 $ pro Million Token)

Der Autor merkt an, dass der Klassifikator nicht perfekt ist, aber "gut genug, um den größten Teil der Einsparungen zu erfassen". Die vollständige Benchmark-Methodik ist in einem Gist verfügbar, der im Quellmaterial verlinkt ist.

📖 Read the full source: r/ClaudeAI

RelayPlane Open Source Proxy zeigt 73 % Kostensenkung durch Claude-Modell-Routing

Open-Source-Proxy für Claude-API-Routing

Benchmark-Ergebnisse und Konfiguration

Routing-Konfiguration

Modellpreise und Routing-Logik

👀 Siehe auch

Claude Usage Bar Colorizer Browser-Erweiterung, erstellt mit Claude Code

Außerhalb des Stromnetzes: Nutzung von Telefonhardware für Offline-AI-Anwendungen

Claude Code Routines: Planen und Ausführen von Agenten-Aufgaben wie mit Cron, inkl. logischer Entscheidungsfindung Oder kürzer und prägnanter: Claude Code Routines: Agenten-Aufgaben wie mit Cron planen – mit logischer Entscheidungsfindung

Ausnutzen des verborgenen Agentursignals (Â) von LLMs für besseres Tool Calling

Open-Source-Proxy für Claude-API-Routing

Benchmark-Ergebnisse und Konfiguration

Routing-Konfiguration

Modellpreise und Routing-Logik

👀 Siehe auch

Claude Usage Bar Colorizer Browser-Erweiterung, erstellt mit Claude Code

Außerhalb des Stromnetzes: Nutzung von Telefonhardware für Offline-AI-Anwendungen

**Claude Code Routines: Planen und Ausführen von Agenten-Aufgaben wie mit Cron, inkl. logischer Entscheidungsfindung** Oder kürzer und prägnanter: **Claude Code Routines: Agenten-Aufgaben wie mit Cron planen – mit logischer Entscheidungsfindung**

Ausnutzen des verborgenen Agentursignals (Â) von LLMs für besseres Tool Calling

Claude Code Routines: Planen und Ausführen von Agenten-Aufgaben wie mit Cron, inkl. logischer Entscheidungsfindung Oder kürzer und prägnanter: Claude Code Routines: Agenten-Aufgaben wie mit Cron planen – mit logischer Entscheidungsfindung