Anthropic Harness vs Agyn Engineering Org : Comparaison IA multi-agents

Anthropic a publié une conception de harnais pour le développement d'applications de longue durée, tandis que le système multi-agents Agyn pour l'ingénierie logicielle autonome en équipe a été rendu open-source le mois dernier sur arXiv. Les deux approches rejettent le modèle de l'« agent monolithique » et structurent plutôt les agents IA pour qu'ils fonctionnent comme de véritables équipes d'ingénierie, avec séparation des rôles, transferts structurés et boucles de révision.

Différences fondamentales d'architecture

Le système d'Anthropic utilise une architecture inspirée des GAN avec trois rôles : planificateur → générateur → évaluateur. L'évaluateur utilise Playwright pour interagir avec l'application en cours d'exécution comme un utilisateur réel, puis fournit une critique structurée au générateur.

Agyn modélise le processus comme une organisation d'ingénierie avec quatre rôles : coordination → recherche → implémentation → révision. Les agents opèrent dans des sandbox isolés et communiquent via des contrats définis.

Solutions communes aux problèmes récurrents

Les modèles perdent en cohérence sur les tâches longues : Anthropic utilise des réinitialisations de contexte avec des artefacts de transfert structurés, tandis qu'Agyn utilise la compaction avec des transferts structurés entre les rôles
L'auto-évaluation est trop indulgente : Les deux systèmes séparent l'évaluation de la génération. Anthropic utilise un agent évaluateur distinct calibré sur des exemples few-shot, tandis qu'Agyn a un rôle de révision dédié séparé de l'implémentation
Critères de « fin » ambigus : Anthropic utilise des contrats de sprint négociés avant le début du travail, tandis qu'Agyn a une phase de spécification des tâches avec des critères d'acceptation explicites et des tests requis
Décomposition complexe des tâches : Le planificateur d'Anthropic développe des invites d'une phrase en spécifications complètes, tandis que l'agent de recherche d'Agyn décompose les problèmes et produit des spécifications avant le début de l'implémentation
Anxiété contextuelle : Anthropic utilise des réinitialisations pour des ardoises propres, tandis qu'Agyn utilise la compaction avec une couche mémoire

Caractéristiques distinctives d'Agyn

Agyn inclut deux fonctionnalités absentes du harnais d'Anthropic :

Sandbox isolés par agent : Chaque agent opère dans son propre espace de noms de fichiers et de réseau isolé, évitant les collisions sur l'état partagé pendant un travail parallèle ou séquentiel
GitHub comme état partagé : Le système utilise les primitives de GitHub (commits, commentaires, PR, révisions) que les équipes humaines comprennent déjà, fournissant un journal d'audit complet sans nécessiter de protocoles de communication personnalisés

Différences d'implémentation

Le harnais d'Anthropic est construit étroitement autour de Claude en utilisant le Claude Agent SDK et Playwright MCP pour la boucle d'évaluation. L'évaluateur navigue dans des applications en cours d'exécution avant de noter.

Agyn est par conception indépendant du modèle, prenant en charge Claude, Codex et les modèles open-weight. Le système permet de mélanger différents modèles par rôle, ce qui s'est avéré en pratique plus performant que l'utilisation d'un seul modèle pour tout.

📖 Lire la source complète : r/ClaudeAI