Harness de Anthropic vs. Modelo de Organización de Agyn: Comparativa

Anthropic ha publicado un diseño de arnés para el desarrollo de aplicaciones de larga duración, mientras que el sistema multiagente de Agyn para la ingeniería de software autónoma basada en equipos se publicó como código abierto el mes pasado en arXiv. Ambos enfoques rechazan el modelo de "agente monolítico" y en su lugar estructuran a los agentes de IA para que trabajen como equipos de ingeniería reales con separación de roles, transferencias estructuradas y bucles de revisión.

Diferencias en la arquitectura central

El sistema de Anthropic utiliza una arquitectura inspirada en GAN con tres roles: planificador → generador → evaluador. El evaluador utiliza Playwright para interactuar con la aplicación en ejecución como un usuario real, luego proporciona una crítica estructurada al generador.

Agyn modela el proceso como una organización de ingeniería con cuatro roles: coordinación → investigación → implementación → revisión. Los agentes operan en entornos aislados y se comunican a través de contratos definidos.

Soluciones compartidas a problemas comunes

Los modelos pierden coherencia en tareas largas: Anthropic utiliza reinicios de contexto con artefactos de transferencia estructurada, mientras que Agyn utiliza compactación con transferencias estructuradas entre roles
La autoevaluación es demasiado indulgente: Ambos sistemas separan la evaluación de la generación. Anthropic utiliza un agente evaluador separado calibrado con ejemplos de pocas muestras, mientras que Agyn tiene un rol de revisión dedicado separado de la implementación
Criterios de "finalización" ambiguos: Anthropic utiliza contratos de sprint negociados antes de comenzar el trabajo, mientras que Agyn tiene una fase de especificación de tareas con criterios de aceptación explícitos y pruebas requeridas
Descomposición compleja de tareas: El planificador de Anthropic expande indicaciones de una oración en especificaciones completas, mientras que el agente investigador de Agyn descompone problemas y produce especificaciones antes de que comience la implementación
Ansiedad por el contexto: Anthropic utiliza reinicios para comenzar desde cero, mientras que Agyn utiliza compactación con una capa de memoria

Características distintivas de Agyn

Agyn incluye dos características no presentes en el arnés de Anthropic:

Entornos aislados por agente: Cada agente opera en su propio espacio de archivos y red aislado, evitando colisiones en el estado compartido durante el trabajo paralelo o secuencial
GitHub como estado compartido: El sistema utiliza primitivas de GitHub (commits, comentarios, PRs, revisiones) que los equipos humanos ya entienden, proporcionando un registro de auditoría completo sin requerir protocolos de comunicación personalizados

Diferencias de implementación

El arnés de Anthropic está construido estrechamente alrededor de Claude utilizando el Claude Agent SDK y Playwright MCP para el bucle de evaluación. El evaluador navega por aplicaciones en ejecución antes de puntuar.

Agyn es independiente del modelo por diseño, compatible con Claude, Codex y modelos de peso abierto. El sistema permite mezclar diferentes modelos por rol, lo que en la práctica ha demostrado superar el uso de un solo modelo para todo.

📖 Read the full source: r/ClaudeAI

Comparando Sistemas de IA Multiagente: Harness de Anthropic vs. el Modelo de Organización de Ingeniería de Agyn

Diferencias en la arquitectura central

Soluciones compartidas a problemas comunes

Características distintivas de Agyn

Diferencias de implementación

👀 Ver también

Membase: Capa de Memoria Externa para Asistentes de IA en Herramientas

claude-sessions: Interfaz de Usuario en Terminal para Navegar Transcripciones de Código de Claude

Claude Code reescribe el analizador SQL de PostHog para lograr una aceleración de 70x – Cómo funcionaron las pruebas basadas en propiedades y los agentes paralelos

Servidor MCP para contexto de base de código empaquetado en profundidad