Comparaison des systèmes d'IA multi-agents : Le modèle Harness d'Anthropic contre le modèle Engineering Org d'Agyn

Anthropic a publié une conception de harnais pour le développement d'applications de longue durée, tandis que le système multi-agents Agyn pour l'ingénierie logicielle autonome en équipe a été rendu open-source le mois dernier sur arXiv. Les deux approches rejettent le modèle de l'« agent monolithique » et structurent plutôt les agents IA pour qu'ils fonctionnent comme de véritables équipes d'ingénierie, avec séparation des rôles, transferts structurés et boucles de révision.
Différences fondamentales d'architecture
Le système d'Anthropic utilise une architecture inspirée des GAN avec trois rôles : planificateur → générateur → évaluateur. L'évaluateur utilise Playwright pour interagir avec l'application en cours d'exécution comme un utilisateur réel, puis fournit une critique structurée au générateur.
Agyn modélise le processus comme une organisation d'ingénierie avec quatre rôles : coordination → recherche → implémentation → révision. Les agents opèrent dans des sandbox isolés et communiquent via des contrats définis.
Solutions communes aux problèmes récurrents
- Les modèles perdent en cohérence sur les tâches longues : Anthropic utilise des réinitialisations de contexte avec des artefacts de transfert structurés, tandis qu'Agyn utilise la compaction avec des transferts structurés entre les rôles
- L'auto-évaluation est trop indulgente : Les deux systèmes séparent l'évaluation de la génération. Anthropic utilise un agent évaluateur distinct calibré sur des exemples few-shot, tandis qu'Agyn a un rôle de révision dédié séparé de l'implémentation
- Critères de « fin » ambigus : Anthropic utilise des contrats de sprint négociés avant le début du travail, tandis qu'Agyn a une phase de spécification des tâches avec des critères d'acceptation explicites et des tests requis
- Décomposition complexe des tâches : Le planificateur d'Anthropic développe des invites d'une phrase en spécifications complètes, tandis que l'agent de recherche d'Agyn décompose les problèmes et produit des spécifications avant le début de l'implémentation
- Anxiété contextuelle : Anthropic utilise des réinitialisations pour des ardoises propres, tandis qu'Agyn utilise la compaction avec une couche mémoire
Caractéristiques distinctives d'Agyn
Agyn inclut deux fonctionnalités absentes du harnais d'Anthropic :
- Sandbox isolés par agent : Chaque agent opère dans son propre espace de noms de fichiers et de réseau isolé, évitant les collisions sur l'état partagé pendant un travail parallèle ou séquentiel
- GitHub comme état partagé : Le système utilise les primitives de GitHub (commits, commentaires, PR, révisions) que les équipes humaines comprennent déjà, fournissant un journal d'audit complet sans nécessiter de protocoles de communication personnalisés
Différences d'implémentation
Le harnais d'Anthropic est construit étroitement autour de Claude en utilisant le Claude Agent SDK et Playwright MCP pour la boucle d'évaluation. L'évaluateur navigue dans des applications en cours d'exécution avant de noter.
Agyn est par conception indépendant du modèle, prenant en charge Claude, Codex et les modèles open-weight. Le système permet de mélanger différents modèles par rôle, ce qui s'est avéré en pratique plus performant que l'utilisation d'un seul modèle pour tout.
📖 Lire la source complète : r/ClaudeAI
👀 See Also

L'application iOS ClawTalk permet le chat vocal avec des agents IA OpenClaw auto-hébergés.
ClawTalk est une application iOS native qui offre une discussion vocale par appui pour parler pour les configurations OpenClaw auto-hébergées de LLM. Elle comprend la reconnaissance vocale sur l'appareil via WhisperKit, des réponses en streaming en temps réel avec rendu markdown, et prend en charge plusieurs options de synthèse vocale, notamment ElevenLabs, OpenAI et les voix intégrées d'Apple.

singularité-claude : Un moteur de compétences auto-évolutif pour le code Claude
singularity-claude est un plugin open-source pour Claude Code qui ajoute une boucle d'évolution récursive pour prévenir la détérioration des compétences. Il évalue les exécutions de compétences, répare automatiquement les compétences à faible score, cristallise les versions performantes et détecte les lacunes de capacités.

Demande de Fonctionnalité pour Claude Desktop : Crochet de Démarrage de Session pour l'Initialisation Automatique
Un développeur créant des systèmes de contexte persistant pour Claude Desktop identifie un manque : le champ Préférences utilisateur n'injecte des instructions que lorsque l'utilisateur envoie le premier message, nécessitant des déclencheurs manuels pour l'initialisation. Il propose d'ajouter un champ d'exécution "Au démarrage de la session" qui s'exécute automatiquement à l'ouverture d'une nouvelle conversation.

Visdiff : Boucle de rétroaction visuelle pour la génération de code frontend de Claude
Visdiff comble l'écart de précision visuelle dans la génération de code frontend de Claude en comparant pixel par pixel le rendu avec les maquettes Figma et en réinjectant les différences dans la boucle jusqu'à correspondance.