11 Construcciones Multi-Agente: Análisis Práctico Sin Andamiaje

Hallazgos Técnicos Clave de Experimentos con Sistemas Multi-Agente

El análisis de 11 construcciones de software autónomas de múltiples agentes sin andamiaje programático, basado en 295M de tokens, 98 sesiones de agentes y 6.1M de líneas de salida de trabajadores, revela ideas prácticas para desarrolladores que trabajan con agentes de codificación de IA.

Aplicación del Alcance y Orquestación

La aplicación del alcance se resuelve mecánicamente, no mediante indicaciones: Los enfoques basados en indicaciones fallaron 0/20 veces bajo presión del compilador, mientras que los enfoques mecánicos (permitir que los agentes editen todo y usar git revert para archivos fuera del alcance) tuvieron éxito 20/20 veces. La idea clave: no pidas a los modelos que respeten los límites—aplícalos después del hecho.

Los costos del orquestador están limitados por la memoria: Aproximadamente el 95% del gasto de entrada es releer el historial de conversación. La "prima de estado" significa que un orquestador de frontera que escribe cero código enviado puede costar tanto como toda la flota de trabajadores. La optimización debe apuntar a menos turnos y menos reingestión, no a un razonamiento más barato.

Dinámicas de Coordinación y Escalado

Los modelos no descubren coordinación de forma independiente: Opus con indicaciones simples y acceso completo a herramientas nunca delegó, nunca escribió especificaciones y nunca descubrió el envío paralelo—simplemente construyó todo solo. La plantilla de coordinación hace un trabajo real.

La profundidad escala de manera diferente a la calidad: El envío plano supera a la jerarquía en ≤10 dominios en rendimiento, eficiencia de tokens y tiempo real. Por encima de 10 dominios, la jerarquía permite paralelismo que el envío plano no puede lograr.

El rendimiento en solitario supera a la coordinación hasta que los límites de contexto se activan: El rendimiento en solitario es aproximadamente 325 LOC/min e invariante al tamaño del proyecto. El rendimiento de la pirámide escala con los trabajadores. Por debajo de ~30K LOC, la delegación es pura sobrecarga.

Rendimiento del Trabajador y Sistemas de Tipos

La capacidad del modelo de trabajador impulsa el rendimiento: Misma arquitectura, misma especificación, tres modelos de trabajador produjeron: 17,761 LOC vs 6,001 vs 1,818—una brecha de 9.8x. La arquitectura permite rendimiento paralelo; el modelo de trabajador lo determina.

Los contratos de tipo proporcionan vocabulario compartido: La integración tiene éxito sin contratos en todas las escalas probadas (6–36 módulos), incluso bajo restricciones de solo lectura. Pero sin contratos, los trabajadores paralelos producen silenciosamente tipos estructuralmente incompatibles que solo compilan porque nada hace referencias cruzadas. Un solo contrato de 984 líneas escrito a ciegas se mantuvo en 10 dominios independientes.

Los contratos de tipo eliminan la sobrecarga de coordinación a escala: La prueba de escalado controlado (1–20 trabajadores, especificación fija) mostró cero errores de integración en 50 construcciones de dominio. Punto óptimo en 10 trabajadores: aceleración de tiempo real de 2.05x. Con 20 trabajadores, las dependencias de fase serial anulan las ganancias de paralelismo (fracción serial de Amdahl ~44%).

Contexto y Patrones de Delegación

La preparación del contexto funciona; el formato no importa: 0% de transferencia de fórmula en frío, 100% con contexto de diseño presente (N=10 por condición). Un documento de referencia estático produce tasas de transferencia idénticas a una conversación de arranque sintética.

La compresión de delegación es inherente: Cada capa de delegación actúa como un resumidor con pérdidas. Los requisitos cuantitativos ("80 armas") desaparecen; los requisitos estructurales (interfaces de tipo) sobreviven. Solución: los trabajadores deben leer especificaciones completas del sistema de archivos en lugar de depender de cadenas de indicaciones comprimidas.

La recuperación de compactación es robusta con buenos resúmenes: Cero recaídas de tareas en 11 eventos de compactación. Los modelos declaran el estado esperado, luego leen el disco para verificar.

Modos de Falla y Soluciones

Reflejo de abstracción: Construye un orquestador en lugar de orquestar—nómbralo en la indicación
Error de auto-modelo: Afirma capacidades falsas—documenta las herramientas disponibles explícitamente
Paradoja de identidad: No puede mantener roles duales—usa instancias de modelo separadas
Compresión de delegación: Usa especificaciones enumerativas más acceso al sistema de archivos

📖 Read the full source: r/ClaudeAI