Routing Agent Subtasks zu Günstigeren Modellen: Kosten von $18 auf $4 Gesenkt

Ein Entwickler auf r/ClaudeAI beschreibt eine praktische Kostenoptimierungsstrategie für Agenten-Schleifen: Routineaufgaben an günstige Modelle weiterleiten und teure Modelle (Opus 4.7) nur für komplexe Überlegungen reservieren. Sein Refactoring-Agent – der CSS-Variablenumbenennungen, YAML-Konfigurationsupdates und Linter-Ausführungen über MCP erledigte – sandte ursprünglich jeden Schritt an Opus 4.7, insgesamt etwa 18 $. Nach Implementierung einer Weiterleitungslogik gingen 178 von 212 Schritten an günstige Modelle, wodurch die Kosten auf rund 4 $ sanken – ohne erkennbaren Qualitätsunterschied bei Routineänderungen.

Weiterleitungslogik

Schwierige Aufgaben → Opus 4.7: Komponentenarchitektur, Debugging von 2-Uhr-morgens-Code, alles, was durchgehendes Überlegen in langen Gesprächen erfordert. Der Autor merkt an, dass Opus bei dieser Art von Arbeit wirklich unübertroffen ist – ein früherer Versuch, einen Auth-Middleware-Bug an ein günstigeres Modell weiterzuleiten, brach stillschweigend die Sitzungsverwaltung, was eine Stunde der Nachverfolgung kostete.
Routineaufgaben → günstigere Modelle: Lint, Umbenennungen, Konfigurationsänderungen, Tool-Orchestrierung. Der Autor entschied sich für DeepSeek V4 Pro für allgemeine Programmieraufgaben und Tencent Hunyuan Hy3 Vorschau für umfangreiche Tool-Aufrufe. Seit Ende April belegt Hunyuan Hy3 Platz 1 auf OpenRouter nach Anzahl der Tool-Aufrufe und vermasselt fast nie einen Funktionsaufruf, wenn das Schema sauber ist.

Kostenvergleich

Opus 4.7: ~0,18 $ pro Million Eingabe-Token (geschätzt aus dem Kontext einer etwa 28-mal günstigeren Alternative).
Tencent Hunyuan Hy3: 0,18 $ pro Million Eingabe-Token, 0,59 $ pro Million Ausgabe – etwa 28-mal günstiger als Opus 4.7 bei der Eingabe.
Gleicher 212-Schritte-Refactor: 178 Schritte zur günstigen Stufe, 34 Schritte zu Opus. Kosten fielen von 18 $ auf etwa 4 $.

Fehlermodi

Das Tool-Aufruf-Modell halluziniert Parameter, wenn Schemas schlampig sind (Autor gibt zu, dass Schemas schlecht waren).
DeepSeek V4 Pro schreibt gelegentlich syntaktisch perfekten Code, der das Gegenteil von dem bewirkt, was verlangt wurde, und übersteht einen schnellen Blick.
Keines der günstigen Modelle kann es mit Opus beim Debuggen tiefgehender Probleme aufnehmen (z. B. Auth-Flow, der stillschweigend ein Cookie frisst).

Entscheidungsheuristik

Die Weiterleitungsregel des Autors lautet: „Wie teuer ist es, eine falsche Antwort zu finden?“ Eine schlechte Lint-Korrektur kostet einen 2-Sekunden-Git-Revert; eine schlechte Architekturentscheidung kostet den ganzen Nachmittag.

Die Einsparungen ermöglichten zuvor übersprungene Aufgaben – wie Schreiben und Ausführen von Tests bei jeder CSS-Änderung oder Neugenerieren aller Open-Graph-Bilder – denn bei Bruchteilen eines Cents pro Tool-Aufruf gibt es keinen Grund, es nicht zu tun.

📖 Lesen Sie die vollständige Quelle: r/ClaudeAI

Routing Agent Subtasks zu günstigeren Modellen senkte Kosten von $18 auf $4 bei gleicher Refaktorisierung

Weiterleitungslogik

Kostenvergleich

Fehlermodi

Entscheidungsheuristik

👀 Siehe auch

OpenClaw-Installationstipps: Onboarding überspringen und Diagnosebefehle verwenden

MiniMax M2.7 Q8_0 128K auf 2x3090 mit CPU-Offloading – Benchmarks und Konfiguration aus der Praxis

Ja Flow/Nein Flow: Eine einfache Technik zur Reduzierung von Kontext-Halluzinationen in KI-Codierungssitzungen

Token-Verschwendung in Claude Code: Eine Selbstkontrolle zeigt, dass Verhaltensänderungen besser sind als Modellwechsel