Routing Agent Subtasks zu günstigeren Modellen senkte Kosten von $18 auf $4 bei gleicher Refaktorisierung

✍️ OpenClawRadar📅 Veröffentlicht: 19. Mai 2026🔗 Source
Routing Agent Subtasks zu günstigeren Modellen senkte Kosten von $18 auf $4 bei gleicher Refaktorisierung
Ad

Ein Entwickler auf r/ClaudeAI beschreibt eine praktische Kostenoptimierungsstrategie für Agenten-Schleifen: Routineaufgaben an günstige Modelle weiterleiten und teure Modelle (Opus 4.7) nur für komplexe Überlegungen reservieren. Sein Refactoring-Agent – der CSS-Variablenumbenennungen, YAML-Konfigurationsupdates und Linter-Ausführungen über MCP erledigte – sandte ursprünglich jeden Schritt an Opus 4.7, insgesamt etwa 18 $. Nach Implementierung einer Weiterleitungslogik gingen 178 von 212 Schritten an günstige Modelle, wodurch die Kosten auf rund 4 $ sanken – ohne erkennbaren Qualitätsunterschied bei Routineänderungen.

Weiterleitungslogik

  • Schwierige Aufgaben → Opus 4.7: Komponentenarchitektur, Debugging von 2-Uhr-morgens-Code, alles, was durchgehendes Überlegen in langen Gesprächen erfordert. Der Autor merkt an, dass Opus bei dieser Art von Arbeit wirklich unübertroffen ist – ein früherer Versuch, einen Auth-Middleware-Bug an ein günstigeres Modell weiterzuleiten, brach stillschweigend die Sitzungsverwaltung, was eine Stunde der Nachverfolgung kostete.
  • Routineaufgaben → günstigere Modelle: Lint, Umbenennungen, Konfigurationsänderungen, Tool-Orchestrierung. Der Autor entschied sich für DeepSeek V4 Pro für allgemeine Programmieraufgaben und Tencent Hunyuan Hy3 Vorschau für umfangreiche Tool-Aufrufe. Seit Ende April belegt Hunyuan Hy3 Platz 1 auf OpenRouter nach Anzahl der Tool-Aufrufe und vermasselt fast nie einen Funktionsaufruf, wenn das Schema sauber ist.
Ad

Kostenvergleich

  • Opus 4.7: ~0,18 $ pro Million Eingabe-Token (geschätzt aus dem Kontext einer etwa 28-mal günstigeren Alternative).
  • Tencent Hunyuan Hy3: 0,18 $ pro Million Eingabe-Token, 0,59 $ pro Million Ausgabe – etwa 28-mal günstiger als Opus 4.7 bei der Eingabe.
  • Gleicher 212-Schritte-Refactor: 178 Schritte zur günstigen Stufe, 34 Schritte zu Opus. Kosten fielen von 18 $ auf etwa 4 $.

Fehlermodi

  • Das Tool-Aufruf-Modell halluziniert Parameter, wenn Schemas schlampig sind (Autor gibt zu, dass Schemas schlecht waren).
  • DeepSeek V4 Pro schreibt gelegentlich syntaktisch perfekten Code, der das Gegenteil von dem bewirkt, was verlangt wurde, und übersteht einen schnellen Blick.
  • Keines der günstigen Modelle kann es mit Opus beim Debuggen tiefgehender Probleme aufnehmen (z. B. Auth-Flow, der stillschweigend ein Cookie frisst).

Entscheidungsheuristik

Die Weiterleitungsregel des Autors lautet: „Wie teuer ist es, eine falsche Antwort zu finden?“ Eine schlechte Lint-Korrektur kostet einen 2-Sekunden-Git-Revert; eine schlechte Architekturentscheidung kostet den ganzen Nachmittag.

Die Einsparungen ermöglichten zuvor übersprungene Aufgaben – wie Schreiben und Ausführen von Tests bei jeder CSS-Änderung oder Neugenerieren aller Open-Graph-Bilder – denn bei Bruchteilen eines Cents pro Tool-Aufruf gibt es keinen Grund, es nicht zu tun.

📖 Lesen Sie die vollständige Quelle: r/ClaudeAI

Ad

👀 Siehe auch

Geh nicht davon aus, dass teure Modelle besser sind: Fallstudie zeigt 13-fache Kosteneinsparungen durch Tests
Tipps

Geh nicht davon aus, dass teure Modelle besser sind: Fallstudie zeigt 13-fache Kosteneinsparungen durch Tests

Ein Reddit-Nutzer ersetzte GPT-5.4 durch Gemini 3.1 Flash Lite bei einer Klassifizierungsaufgabe und erzielte die gleiche Genauigkeit von 85% zu 1/13 der Kosten, nachdem er Evaluierungen mit 21 Modellen durchgeführt hatte.

OpenClawRadar
Sparen Sie bei Claude Code-Rechnungen, indem Sie Planungs-Tokens an günstigere Modelle weiterleiten
Tipps

Sparen Sie bei Claude Code-Rechnungen, indem Sie Planungs-Tokens an günstigere Modelle weiterleiten

Ein Nutzer sparte 40 $ an Zusatzgebühren, indem er Claude Code-Workflows aufteilte: Planungsschritte gehen an Haiku 3.5, tatsächliche Bearbeitungen und Entscheidungen bleiben bei Opus/Sonnet. Ein 30-zeiliger Wrapper übernimmt das Routing; die Einrichtung dauerte etwa 2 Stunden.

OpenClawRadar
Governance-Ebene für Claude-Agenten: Harte Sicherheitsgrenzen und Live-Traces in der Produktion
Tipps

Governance-Ebene für Claude-Agenten: Harte Sicherheitsgrenzen und Live-Traces in der Produktion

Ein Claude API-Nutzer hat eine leichtgewichtige Governance-Schicht unterhalb des Agenten implementiert, um harte Sicherheitsgrenzen, Echtzeit-Traces, Human-in-the-Loop-Kontrolle über Telegram und automatische Checkpoints hinzuzufügen – damit löst er stille Fehler und explodierende Token-Kosten in langlaufenden Agenten-Schleifen.

OpenClawRadar
Firefox-Workaround für das Einfrieren von Claude.ai mithilfe eines Tampermonkey-Skripts
Tipps

Firefox-Workaround für das Einfrieren von Claude.ai mithilfe eines Tampermonkey-Skripts

Ein Reddit-Benutzer teilt eine Tampermonkey-Skript-Lösung für Firefox-Nutzer, die Einfrierprobleme auf Claude.ai erleben. Das Skript ändert das Verhalten von Date.now(), um Zeitkonflikte zu verhindern, die zum Hängen der Oberfläche führen.

OpenClawRadar