Agentes Subalternos Paralelos en Claude Code: Cuándo Ahorran vs. Queman Tokens

Los números de Anthropic a menudo se ignoran en el hype de "¡usa subagentes!": los sistemas multiagente consumen aproximadamente 15× más tokens que un solo chat, y son "menos efectivos para tareas estrechamente interdependientes como la programación" (fuente). Sin embargo, los tokens almacenados en caché cuestan solo 10% de lo normal (90% de descuento), pero solo si el contenido marcado para caché es idéntico entre solicitudes (fuente).
Los multiagentes multiplican el uso de tokens por 15. El caché lo divide por 10. Si los subagentes ahorran o queman dinero se reduce a una cosa: ¿comparten todos los subagentes el mismo prefijo?
Tres formas de delegar, ordenadas por costo
- 1. Subagente con
subagent_typeconfigurado. Prompt de sistema personalizado, herramientas personalizadas, permisos personalizados (Anthropic). Prompt diferente = caché diferente. Sin compartir con el padre. Precio completo en cada creación. Úsalo cuando realmente necesites aislamiento. - 2. Clone que hereda del padre. Sin
subagent_type. Hereda el prompt, las herramientas y el historial del padre exactamente. Los clones 2..N aciertan en la caché al 10% del precio. Cinco clones leyendo archivos en paralelo ≈ 5× de velocidad a ~1.5× de costo. - 3. Sin subagente. Quédate en el agente principal. Más barato por turno. Respuesta correcta cuando el trabajo depende de sí mismo: refactorizaciones donde el paso 2 necesita el resultado del paso 1.
Cuándo NO delegar (la propia línea de Anthropic)
"Mejor para tareas que se pueden dividir en líneas paralelas de investigación." Traducción:
- Bueno: leer 7 archivos en paralelo, auditar carpetas en busca de un patrón, recopilar información de muchas fuentes.
- Malo: refactorizar un módulo, corregir un error donde cada paso depende del anterior. Solo agente principal.
Si divides trabajo estrechamente acoplado en subagentes, pagas 15× y no ganas nada.
Qué rompe la caché
Anthropic: editar definiciones de herramientas, cambiar de modelo, añadir o eliminar imágenes, o cambiar la estructura anterior del prompt rompe el prefijo en caché (fuente). Así que:
- Instala tus MCPs al inicio de la sesión, no a mitad de sesión.
- Elige el modelo de antemano.
- No edites
CLAUDE.mdni la memoria automática a mitad de sesión: viven dentro del prefijo en caché.
📖 Leer la fuente completa: r/ClaudeAI
👀 Ver también

La Optimización de ANE Mediante Experimentos de IA Dirigidos por Teléfono Muestra los Beneficios de la Fusión de Núcleos
Un desarrollador ejecutó 55 experimentos sobre la optimización del Apple Neural Engine, dirigiendo el proceso desde su teléfono usando Claude para lluvia de ideas. Las mejoras clave incluyeron fusionar 3 núcleos ANE en 1 mega-núcleo, reduciendo la pérdida de validación de 3.75 a 2.49 y el tiempo por paso de 176ms a 96ms.

Ory Lumen: Complemento de Búsqueda Semántica Local de Código Abierto para Claude Code
Ory Lumen es un complemento de Claude Code que indexa bases de código utilizando Ollama con un modelo de incrustación de código y SQLite-vec para búsqueda semántica, abordando los problemas de rendimiento de Claude Code con bases de código grandes. La herramienta es gratuita, solo local e incluye un conjunto de pruebas de referencia estilo SWE para resultados reproducibles.

Recuperación de código para agentes de IA: Por qué fallan los embeddings vectoriales y triunfan los gráficos LLM por archivo
Tras un año construyendo un sistema de indexación de código, el equipo de Bytebell descubrió que los embeddings vectoriales en fragmentos de código y los AST de Tree-sitter se quedaban cortos, mientras que los resúmenes por archivo generados por LLM almacenados en un grafo Neo4j con búsqueda semántica de texto completo mejoraban significativamente la precisión de la recuperación.

Monitor de Uso de Claude: Widget CRT Flotante para Windows
Un desarrollador creó un widget para Windows que muestra el uso de la API de Claude en tiempo real con barras de sesión y semanales, que incluye siete temas de color y se pausa automáticamente cuando la pantalla está bloqueada o en modo de pantalla completa.