Comparando Sistemas de IA Multiagente: Harness de Anthropic vs. el Modelo de Organización de Ingeniería de Agyn

Anthropic ha publicado un diseño de arnés para el desarrollo de aplicaciones de larga duración, mientras que el sistema multiagente de Agyn para la ingeniería de software autónoma basada en equipos se publicó como código abierto el mes pasado en arXiv. Ambos enfoques rechazan el modelo de "agente monolítico" y en su lugar estructuran a los agentes de IA para que trabajen como equipos de ingeniería reales con separación de roles, transferencias estructuradas y bucles de revisión.
Diferencias en la arquitectura central
El sistema de Anthropic utiliza una arquitectura inspirada en GAN con tres roles: planificador → generador → evaluador. El evaluador utiliza Playwright para interactuar con la aplicación en ejecución como un usuario real, luego proporciona una crítica estructurada al generador.
Agyn modela el proceso como una organización de ingeniería con cuatro roles: coordinación → investigación → implementación → revisión. Los agentes operan en entornos aislados y se comunican a través de contratos definidos.
Soluciones compartidas a problemas comunes
- Los modelos pierden coherencia en tareas largas: Anthropic utiliza reinicios de contexto con artefactos de transferencia estructurada, mientras que Agyn utiliza compactación con transferencias estructuradas entre roles
- La autoevaluación es demasiado indulgente: Ambos sistemas separan la evaluación de la generación. Anthropic utiliza un agente evaluador separado calibrado con ejemplos de pocas muestras, mientras que Agyn tiene un rol de revisión dedicado separado de la implementación
- Criterios de "finalización" ambiguos: Anthropic utiliza contratos de sprint negociados antes de comenzar el trabajo, mientras que Agyn tiene una fase de especificación de tareas con criterios de aceptación explícitos y pruebas requeridas
- Descomposición compleja de tareas: El planificador de Anthropic expande indicaciones de una oración en especificaciones completas, mientras que el agente investigador de Agyn descompone problemas y produce especificaciones antes de que comience la implementación
- Ansiedad por el contexto: Anthropic utiliza reinicios para comenzar desde cero, mientras que Agyn utiliza compactación con una capa de memoria
Características distintivas de Agyn
Agyn incluye dos características no presentes en el arnés de Anthropic:
- Entornos aislados por agente: Cada agente opera en su propio espacio de archivos y red aislado, evitando colisiones en el estado compartido durante el trabajo paralelo o secuencial
- GitHub como estado compartido: El sistema utiliza primitivas de GitHub (commits, comentarios, PRs, revisiones) que los equipos humanos ya entienden, proporcionando un registro de auditoría completo sin requerir protocolos de comunicación personalizados
Diferencias de implementación
El arnés de Anthropic está construido estrechamente alrededor de Claude utilizando el Claude Agent SDK y Playwright MCP para el bucle de evaluación. El evaluador navega por aplicaciones en ejecución antes de puntuar.
Agyn es independiente del modelo por diseño, compatible con Claude, Codex y modelos de peso abierto. El sistema permite mezclar diferentes modelos por rol, lo que en la práctica ha demostrado superar el uso de un solo modelo para todo.
📖 Read the full source: r/ClaudeAI
👀 Ver también

Creación de una aplicación local de voz a texto para macOS con Claude Code: Caso de estudio de Vext
Un desarrollador pasó 3 meses construyendo Vext, una aplicación de voz a texto para macOS que usa Whisper en Apple Neural Engine. Claude Code ayudó con FFI entre Rust y Swift, optimización de Core ML y la arquitectura de atajos de teclado. La aplicación funciona 100% sin conexión, transcribe 60 segundos de audio en ~400ms.

GitHub Comic Bot: Convierte Commits en Cómics Diarios de Caballeros Medievales
Un bot que lee los commits de GitHub y genera tiras cómicas de 4 viñetas con un caballero medieval de expresión impasible, construido con Claude Code y Gemini, que se ejecuta en GitHub Actions con costos de nivel gratuito.

Calculadora de Costos Gratuita de OpenClaw Muestra los Gastos de Configuración Antes de la Ejecución
Un desarrollador creó una herramienta gratuita y de código abierto para navegadores que calcula los costos de configuración de OpenClaw antes de ejecutarlos, desglosando los gastos por modelo principal, cadenas de respaldo, consumo de latidos y modo de facturación.

Sistema de Memoria Basado en Archivos de Claude Code: Una Alternativa Pragmática a las Bases de Datos Vectoriales
Claude Code implementa un sistema de memoria basado en archivos utilizando archivos .md con metadatos de frontmatter y un índice MEMORY.md, evitando bases de datos vectoriales y pipelines de embeddings al escanear archivos, construir manifiestos y usar un modelo pequeño para seleccionar recuerdos relevantes.