RelayPlane Open Source Proxy zeigt 73 % Kostensenkung durch Claude-Modell-Routing

✍️ OpenClawRadar📅 Veröffentlicht: 7. April 2026🔗 Source
RelayPlane Open Source Proxy zeigt 73 % Kostensenkung durch Claude-Modell-Routing
Ad

Open-Source-Proxy für Claude-API-Routing

RelayPlane ist ein Open-Source-, npm-nativer Proxy, der vor der Anthropic API sitzt. Das Tool wurde mit Claude Code entwickelt, was die Entwicklung beschleunigte. Es ist kostenlos selbst zu hosten und dafür ausgelegt, das Routing zwischen verschiedenen Claude-Modellen basierend auf der Eingabeaufforderungskomplexität zu handhaben.

Benchmark-Ergebnisse und Konfiguration

Der Benchmark verwendete eine gemischte Arbeitslast mit 60 % einfachen und 40 % komplexen Aufgaben. Zwei Szenarien wurden verglichen:

  • Direkt (alle Sonnet): p50-Latenz 1,55 s, Kosten pro 10 Anfragen 0,0323 $
  • Über RelayPlane mit Routing: p50-Latenz 0,78 s, Kosten pro 10 Anfragen 0,0086 $

Dies entspricht einer Kostensenkung von 73,4 %. Bei 10.000 Anfragen pro Tag entspricht dies etwa 712 $ monatlicher Einsparungen.

Ad

Routing-Konfiguration

Die Routing-Konfiguration ist unkompliziert:

{
  "routing": {
    "complexity": {
      "enabled": true,
      "simple": "claude-haiku-4-5",
      "moderate": "claude-sonnet-4-6",
      "complex": "claude-opus-4-6"
    }
  }
}

Die Routing-Logik verwendet einen Komplexitätsklassifikator, der Tokenanzahl, Code-Indikatoren und analytische Schlüsselwörter prüft. Antwort-Header enthalten x-relayplane-routed-model, um zu überprüfen, welches Modell die Anfrage tatsächlich verarbeitet hat.

Modellpreise und Routing-Logik

Das Routing-System leitet Eingabeaufforderungen basierend auf der Komplexität an geeignete Modelle weiter:

  • Einfache Eingabeaufforderungen → Haiku (0,80 $ pro Million Token)
  • Mittlere Eingabeaufforderungen → Sonnet (3 $ pro Million Token)
  • Komplexe Eingabeaufforderungen → Opus (15 $ pro Million Token)

Der Autor merkt an, dass der Klassifikator nicht perfekt ist, aber "gut genug, um den größten Teil der Einsparungen zu erfassen". Die vollständige Benchmark-Methodik ist in einem Gist verfügbar, der im Quellmaterial verlinkt ist.

📖 Read the full source: r/ClaudeAI

Ad

👀 Siehe auch

Libretto: Deterministische Browser-Automatisierungserzeugung für KI-Codierungsagenten
Werkzeuge

Libretto: Deterministische Browser-Automatisierungserzeugung für KI-Codierungsagenten

Libretto ist ein Skill+CLI-Toolkit, das KI-Coding-Agenten ermöglicht, deterministische Browser-Automatisierungsskripte als echten Code zu generieren, weg von Laufzeit-KI-Agenten. Es kombiniert Playwright-UI-Automatisierung mit direkten Netzwerk-/API-Anfragen für Zuverlässigkeit und umfasst schrittweises Debugging und Nur-Lese-Modi.

OpenClawRadar
Engram v1.0.0: Persistenter Speicher für lokale LLMs über ein Wissensnetz
Werkzeuge

Engram v1.0.0: Persistenter Speicher für lokale LLMs über ein Wissensnetz

Engram ist eine einzelne Binärdatei, die lokalen LLMs durch ein Wissensgraphensystem persistente Erinnerung bietet. Es enthält einen MCP-Server für die Integration mit Claude Code, Cursor und Windsurf, speichert alle Daten in einer einzigen .brain-Datei und läuft vollständig offline.

OpenClawRadar
🦀
Werkzeuge

Nadel: Ein 26M-Parameter-Funktionsaufrufmodell mit 6000 Tok/s auf Mobilgeräten

Cactus veröffentlicht Needle als Open Source, ein 26M-Parameter-Modell für einmaligen Funktionsaufruf, das 6000 tok/s Prefill und 1200 tok/s Decoding auf Verbrauchergeräten erreicht. Es basiert auf Simple Attention Networks (ohne FFNs) und übertrifft mehrere größere Modelle in Tool-Use-Benchmarks.

OpenClawRadar
Manifest fügt MiniMax-Token-Pläne mit M2.7-Modellunterstützung hinzu
Werkzeuge

Manifest fügt MiniMax-Token-Pläne mit M2.7-Modellunterstützung hinzu

Manifest, eine Open-Source-Routing-Schicht für OpenClaw, unterstützt jetzt MiniMax-Token-Pläne ab 10 US-Dollar pro Monat. Das neue MiniMax M2.7-Modell wurde speziell für OpenClaw-Workflows entwickelt und erreicht 62,7 auf MM-ClawBench und 56,2 auf SWE-Bench Pro.

OpenClawRadar