Comparando Sistemas de IA Multiagente: Harness da Anthropic vs Modelo de Engenharia Organizacional da Agyn

A Anthropic publicou um design de estrutura para desenvolvimento de aplicações de longa duração, enquanto o sistema multiagente Agyn para engenharia de software autônoma baseada em equipe foi disponibilizado em código aberto no mês passado no arXiv. Ambas as abordagens rejeitam o modelo de "agente monolítico" e, em vez disso, estruturam os agentes de IA para trabalharem como equipes de engenharia reais, com separação de papéis, transferências estruturadas e ciclos de revisão.
Diferenças Principais na Arquitetura
O sistema da Anthropic usa uma arquitetura inspirada em GAN com três papéis: planejador → gerador → avaliador. O avaliador usa Playwright para interagir com a aplicação em execução como um usuário real, fornecendo então uma crítica estruturada de volta ao gerador.
O Agyn modela o processo como uma organização de engenharia com quatro papéis: coordenação → pesquisa → implementação → revisão. Os agentes operam em sandboxes isoladas e se comunicam através de contratos definidos.
Soluções Compartilhadas para Problemas Comuns
- Modelos perdendo coerência em tarefas longas: A Anthropic usa reinicializações de contexto com artefatos de transferência estruturada, enquanto o Agyn usa compactação com transferências estruturadas entre papéis
- A autoavaliação sendo muito branda: Ambos os sistemas separam avaliação de geração. A Anthropic usa um agente avaliador separado calibrado em exemplos few-shot, enquanto o Agyn tem um papel de revisão dedicado separado da implementação
- Critérios de "concluído" ambíguos: A Anthropic usa contratos de sprint negociados antes do início do trabalho, enquanto o Agyn tem uma fase de especificação de tarefas com critérios de aceitação explícitos e testes obrigatórios
- Decomposição complexa de tarefas: O planejador da Anthropic expande prompts de uma frase em especificações completas, enquanto o agente pesquisador do Agyn decompõe problemas e produz especificações antes do início da implementação
- Ansiedade de contexto: A Anthropic usa reinicializações para começar do zero, enquanto o Agyn usa compactação com uma camada de memória
Características Distintivas do Agyn
O Agyn inclui duas características não presentes na estrutura da Anthropic:
- Sandboxes isoladas por agente: Cada agente opera em seu próprio namespace isolado de arquivos e rede, prevenindo colisões em estado compartilhado durante trabalhos paralelos ou sequenciais
- GitHub como estado compartilhado: O sistema usa primitivas do GitHub (commits, comentários, PRs, revisões) que equipes humanas já entendem, fornecendo um log de auditoria completo sem exigir protocolos de comunicação personalizados
Diferenças de Implementação
A estrutura da Anthropic é construída firmemente em torno do Claude usando o Claude Agent SDK e Playwright MCP para o ciclo de avaliação. O avaliador navega em aplicações em execução ao vivo antes de pontuar.
O Agyn é por design agnóstico de modelo, suportando Claude, Codex e modelos de peso aberto. O sistema permite misturar diferentes modelos por papel, o que na prática tem se mostrado superior a usar um único modelo para tudo.
📖 Leia a fonte completa: r/ClaudeAI
👀 See Also

Rukuzu: Portando um Banco de Dados de Grafos em C++ com 200.000 Linhas para Rust com Testes Sistemáticos
O projeto Rukuzu descreve um fluxo de trabalho para portar o banco de dados de grafos embarcado kuzu, com 200.000 linhas de código C++, para Rust, usando um comando personalizado do Claude Code para manter ambas as versões simultaneamente e verificar a correção por meio de mais de 2.700 testes.

Os frameworks de agentes desperdiçam mais de 350.000 tokens por sessão ao reenviar arquivos estáticos.
Um benchmark em uma configuração local do Qwen 3.5 122B revelou que frameworks de agentes desperdiçam mais de 350.000 tokens por sessão ao reenviar arquivos estáticos. Uma abordagem de tempo de compilação reduziu o contexto da consulta de 1.373 tokens para 73, alcançando uma redução de 95%.

O Aplicativo de Viagens Gullivr Integra-se ao Claude via Servidor MCP Remoto
Um desenvolvedor criou o Gullivr, um aplicativo de planejamento de viagens com um servidor MCP remoto que permite ao Claude criar e gerenciar viagens diretamente no aplicativo. A integração permite atualizações em tempo real enquanto conversa com o Claude, eliminando a cópia manual entre ferramentas.

Escudo: Plugin de Segurança de Código Aberto para Claude Code com Varredura Unificada
Shield é um plugin de segurança de código aberto para Claude Code que orquestra múltiplas ferramentas de segurança a partir de um único comando /shield:shield, detecta automaticamente sua stack, executa as ferramentas instaladas e gera relatórios unificados com pontuações de risco e sugestões de correção de código.