Parallel-Sub-Agenten in Claude Code: Wann sie Tokens sparen vs. verbrennen

Anthropic-Zahlen, die im Hype um „Unter-Agenten!“ oft ignoriert werden: Multi-Agent-Systeme verbrauchen etwa 15× mehr Tokens als ein einzelner Chat, und sie sind „weniger effektiv für eng miteinander verbundene Aufgaben wie Programmieren“ (Quelle). Jedoch kosten gecachte Tokens nur 10 % des Normalpreises (90 % Rabatt) – aber nur, wenn der Inhalt, der für das Caching markiert wurde, über mehrere Anfragen hinweg identisch ist (Quelle).
Multi-Agent vervielfacht den Tokenverbrauch um 15. Der Cache teilt ihn durch 10. Ob Unter-Agenten sparen oder verbrennen, läuft auf eine Sache hinaus: Haben alle Unter-Agenten dasselbe Präfix?
Drei Möglichkeiten zu delegieren, geordnet nach Kosten
- 1. Unter-Agent mit gesetztem
subagent_type. Eigenes System-Prompt, eigene Tools, eigene Berechtigungen (Anthropic). Unterschiedliches Prompt = unterschiedlicher Cache. Kein Teilen mit dem Eltern-Agent. Vollpreis bei jedem Start. Verwenden, wenn Isolation wirklich nötig ist. - 2. Klon, der vom Eltern-Agent erbt. Kein
subagent_type. Erbt das Prompt, die Tools und den Verlauf des Eltern-Agent exakt. Kinder 2..N treffen den Cache zu 10 % Preis. Fünf Klone, die parallel Dateien lesen ≈ 5× Geschwindigkeit bei ~1,5× Kosten. - 3. Kein Unter-Agent. Im Haupt-Agent bleiben. Am günstigsten pro Schritt. Die richtige Antwort, wenn die Arbeit von sich selbst abhängt – Refactorings, bei denen Schritt 2 das Ergebnis von Schritt 1 benötigt.
Wann NICHT delegieren (Anthropics eigene Richtlinie)
„Am besten geeignet für Aufgaben, die in parallele Recherchestränge aufgeteilt werden können.“ Übersetzung:
- Gut: 7 Dateien parallel lesen, Ordner auf ein Muster prüfen, Informationen aus vielen Quellen sammeln.
- Schlecht: Ein Modul umgestalten, einen Fehler beheben, bei dem jeder Schritt vom vorherigen abhängt. Nur Haupt-Agent.
Wenn man eng gekoppelte Arbeit in Unter-Agenten aufteilt, zahlt man 15× und gewinnt nichts.
Was den Cache zerstört
Anthropic: Das Bearbeiten von Tooldefinitionen, das Wechseln von Modellen, das Hinzufügen oder Entfernen von Bildern oder das Ändern der früheren Prompt-Struktur zerstört das gecachte Präfix (Quelle). Also:
- Installiere deine MCPs zu Sitzungsbeginn, nicht während der Sitzung.
- Wähle das Modell vorab aus.
- Bearbeite
CLAUDE.mdoder Auto-Memory nicht während der Sitzung – sie leben im gecachten Präfix.
📖 Vollständige Quelle lesen: r/ClaudeAI
👀 Siehe auch

civStation: Open-Source VLM-Harness für die natürliche Sprachsteuerung von Civilization VI
civStation ist ein Open-Source-Computer-Use-Stack, der Sprach- und natürliche Sprachsteuerung von Civilization VI ermöglicht und strategische Befehle auf hoher Ebene durch einen VLM-basierten Beobachtungs- und Ausführungszyklus in UI-Aktionen übersetzt.

Claude Hindsight: Beobachtungstool für Claude-Code-Sitzungen
Claude Hindsight ist eine Open-Source-Beobachtungsschicht für Claude Code, die Tool-Aufrufe, Tokens und Fehler in ein erkundbares Dashboard erfasst. Der Ersteller nutzte es, um ein Open-Source-Projekt in einer einzigen 11-stündigen Sitzung mit 733 Tool-Aufrufen und 692,8M Cache-Tokens zu refaktorisieren.

mycrab.space stellt SKILL.md und Prompt Autocomposer für standardisierte App-Bereitstellung vor
mycrab.space hat SKILL.md veröffentlicht, eine Markdown-Vorlage zur Definition von App-Abhängigkeiten und Konfigurationen, sowie einen Prompt Autocomposer, der aus diesen Dateien einsatzbereite Bereitstellungsbefehle generiert. Das System ermöglicht die Null-Konfiguration-Bereitstellung von Anwendungen wie VS Code im Browser, persönlichen Musik-Clouds und KI-Agenten-Schnittstellen.

Fino: Open-Source MCP-Server für persönliche Finanzanalyse mit Claude
Fino ist ein kostenloser, quelloffener MCP-Server, der Claude über Plaid mit Bankkonten verbindet, Transaktionsdaten lokal in SQLite speichert und Claude Werkzeuge für Finanzanalysen bereitstellt.