Projeto de Sistema Multiagente da Anthropic para Melhorar a Qualidade do Código do Claude

A Anthropic publicou uma postagem de blog delineando uma abordagem de design de arnês para melhorar o desempenho do Claude em tarefas de codificação de longa duração. O método aborda dois problemas específicos: ansiedade de contexto (perda de coerência ao longo de períodos estendidos) e viés de autoavaliação (Claude elogiando seu próprio trabalho mesmo quando a qualidade é ruim).
Solução Multiagente
A solução implementa múltiplos agentes trabalhando juntos, inspirando-se em GANs (Redes Adversariais Generativas). A estrutura central envolve:
- Gerador: Cria código e design
- Avaliador: Fornece avaliação crítica e feedback
Implementação Frontend
Para desenvolvimento frontend, o arnês usa 4 critérios de pontuação que enfatizam estética e criatividade para evitar designs genéricos. O processo envolve 5 a 15 revisões, resultando em saídas mais bonitas e únicas.
Implementação Full-Stack
Para desenvolvimento full-stack, o arnês emprega 3 agentes:
- Planejador
- Gerador
- Avaliador
Comparação de Desempenho
O artigo compara resultados para os mesmos requisitos de desenvolvimento de jogo:
- Executando sozinho: Execução rápida, mas o jogo tem bugs graves
- Usando um arnês: Mais demorado e caro, mas produz resultados significativamente de maior qualidade, incluindo interface bonita, jogo jogável e suporte de IA adicionado
O artigo sugere que, à medida que os modelos se tornam mais poderosos (mencionando especificamente o Opus 4.6), elementos desnecessários do arnês devem ser removidos.
📖 Read the full source: r/ClaudeAI
👀 See Also

lazyclaude: Uma Interface de Usuário em Terminal para Gerenciar Configurações de Código do Claude
lazyclaude é uma ferramenta de interface de usuário de terminal inspirada no lazygit que fornece uma única visualização para gerenciar toda a configuração do Claude Code armazenada em disco, incluindo arquivos de memória, habilidades, agentes, servidores MCP, configurações, permissões, hooks, atalhos de teclado, sessões, estatísticas, plugins e tarefas.

Servidor MCP de Código Aberto Conecta Claude à API do Mailchimp
Um desenvolvedor criou um servidor MCP do Mailchimp usando Claude Code, fornecendo 53 ferramentas para campanhas, públicos, relatórios, automações e e-commerce com modos de segurança integrados e configuração somente leitura.

Resultados do Benchmark de Testes APEX: Desempenho do Qwen 3.5 em Tarefas Reais de Programação
Os resultados do benchmark APEX Testing mostram o desempenho dos modelos Qwen 3.5 em 70 tarefas reais de programação do GitHub, com a versão de 397B caindo para 1194 ELO em tarefas de nível mestre, enquanto o GLM-4.7 quantizado lidera os modelos locais com 1572 ELO.

SecureContext: Um Plugin MCP para Memória Persistente e Redução de Tokens no Claude Code
SecureContext é um plugin MCP de código aberto que fornece persistência no estilo MemGPT entre sessões do Claude Code, reduz os tokens de entrada em aproximadamente 87% por meio de recuperação de contexto direcionada e isola credenciais por meio de um sandbox de segurança.