Agents sous-agents parallèles dans Claude Code : quand ils économisent ou brûlent des jetons

Les chiffres d'Anthropic sont souvent ignorés dans le battage médiatique « utilisez des sous-agents ! » : les systèmes multi-agents consomment environ 15× plus de tokens qu'un simple chat, et ils sont « moins efficaces pour les tâches fortement interdépendantes comme le codage » (source). Cependant, les tokens mis en cache ne coûtent que 10 % du prix normal (90 % de réduction) — mais seulement si le contenu marqué pour la mise en cache est identique d'une requête à l'autre (source).
Le multi-agent multiplie l'utilisation des tokens par 15. Le cache les divise par 10. Que les sous-agents fassent économiser ou perdre de l'argent se résume à une chose : tous les sous-agents partagent-ils le même préfixe ?
Trois façons de déléguer, classées par coût
- 1. Sous-agent avec
subagent_typedéfini. Prompt système personnalisé, outils personnalisés, permissions personnalisées (Anthropic). Prompt différent = cache différent. Aucun partage avec le parent. Plein tarif à chaque création. À utiliser lorsque vous avez réellement besoin d'isolation. - 2. Clone qui hérite du parent. Pas de
subagent_type. Hérite exactement du prompt, des outils et de l'historique du parent. Les enfants 2..N accèdent au cache à 10 % du prix. Cinq clones lisant des fichiers en parallèle ≈ 5× la vitesse pour environ 1,5× le coût. - 3. Pas de sous-agent. Restez dans l'agent principal. Le moins cher par tour. La bonne réponse lorsque le travail dépend de lui-même — refontes où l'étape 2 a besoin du résultat de l'étape 1.
Quand NE PAS déléguer (la propre règle d'Anthropic)
« Meilleur pour les tâches qui peuvent être divisées en branches parallèles de recherche. » Traduction :
- Bon : lire 7 fichiers en parallèle, auditer des dossiers pour un motif, rassembler des informations de nombreuses sources.
- Mauvais : refactoriser un module, corriger un bogue où chaque étape dépend de la précédente. Agent principal uniquement.
Si vous découpez un travail étroitement couplé en sous-agents, vous payez 15× et ne gagnez rien.
Ce qui brise le cache
Anthropic : modifier les définitions d'outils, changer de modèle, ajouter ou supprimer des images, ou modifier la structure antérieure du prompt brise le préfixe mis en cache (source). Donc :
- Installez vos MCPs au début de la session, pas en cours de session.
- Choisissez le modèle dès le départ.
- Ne modifiez pas
CLAUDE.mdou la mémoire automatique en cours de session — ils vivent à l'intérieur du préfixe mis en cache.
📖 Lire la source complète : r/ClaudeAI
👀 See Also

Pepper MCP Serveur pour l'Interaction et le Débogage du Simulateur iOS
Pepper est un serveur MCP qui injecte une bibliothèque dynamique (dylib) dans les applications du simulateur iOS via DYLD_INSERT_LIBRARIES, permettant une interaction en temps réel, la lecture d'écran, le clic de boutons, l'inspection de variables et la surveillance du trafic réseau via un pont WebSocket.

Plugin Pair Programmer Ajoute un Contexte d'Écran en Direct, Vocal et Audio à Claude Code
Un développeur a créé un plugin appelé Pair Programmer qui donne à Claude Code une perception en temps réel du bureau en capturant les flux d'écran, de microphone et d'audio système. L'architecture utilise des agents spécialisés fonctionnant en parallèle pour différents types d'entrées, avec l'indexation actuellement gérée par des modèles cloud mais conçue pour être indépendante du modèle.

Tocket CLI : Un Cadre d'Ingénierie de Contexte pour les Agents d'IA de Codage
Tocket est un outil CLI qui crée un dossier .context/ contenant des fichiers markdown pour que les agents IA puissent maintenir la mémoire du projet entre les sessions. Il détecte automatiquement les piles technologiques à partir du package.json et génère un fichier .cursorrules préconfiguré.

Utiliser /probe pour détecter les hallucinations de l'IA avant d'écrire du code
Un développeur partage une technique appelée /probe qui force les plans générés par l'IA à émettre des affirmations numérotées avec des valeurs attendues, puis sonde le système réel pour détecter les écarts. La méthode a révélé quatre erreurs factuelles dans la description par Claude de son propre format JSONL, qui auraient causé des bugs dans le code.