Código Vazado do Claude Revela Sistema KAIROS e a Lacuna de Verificação em Agentes de IA

O que o Vazamento Revelou
A Anthropic enviou acidentalmente um mapa de origem em seu pacote npm, expondo toda a base de código do Claude Code. O vazamento contém 512 mil linhas de TypeScript, 44 flags de funcionalidade e um sistema oculto chamado KAIROS.
KAIROS é descrito como um agente em segundo plano sempre ativo que executa várias funções enquanto o usuário está inativo:
- Consolida a memória
- Mescla observações
- Remove contradições
- Prepara o contexto para que esteja limpo quando o usuário retornar
A Experiência de Desenvolvimento Independente
Um desenvolvedor solo construindo uma plataforma TypeScript de 668 mil linhas com Claude Code encontrou as mesmas limitações que o KAIROS aborda. Eles executam campanhas autônomas abrangendo múltiplas sessões com arquivos de estado persistentes que carregam o contexto além dos limites da janela de contexto.
O problema: as campanhas param entre sessões. Ao finalizar uma fase e retornar mais tarde, os desenvolvedores devem reiniciar manualmente, reler os arquivos da campanha e descobrir onde as coisas pararam porque a memória do agente morre com a sessão.
A solução que construíram: um daemon que encadeia sessões via gatilhos programados. Uma sessão termina, grava o estado, sai com código 0 (“sem erros”), e o daemon detecta a saída para gerar a próxima sessão com contexto completo. Isso reduziu campanhas que levavam uma semana de reinícios manuais para serem concluídas em uma única sequência.
O Problema de Verificação
O desenvolvedor descobriu que o código de saída 0 significa “sem erros” mas não significa “funciona”. Em sua primeira noite executando o daemon, um agente enviou uma funcionalidade invisível — uma campanha completa foi concluída com verificação de tipos limpa, zero avisos e saída confiante, mas 37 de 38 entidades estavam faltando na aplicação real.
Em outro caso, uma sessão de frota substituiu 6 componentes funcionando em paralelo, resultando em componentes mostrando “Executando NaN” sem linha do tempo ou sinais vitais. Os agentes nunca renderizaram o que construíram — eles apenas verificaram que compilou e seguiram em frente.
A Solução da Camada de Verificação
O desenvolvedor percebeu que “o daemon sozinho é uma forma mais rápida de enviar código quebrado”. Eles construíram uma camada de verificação que força os agentes a provar seu trabalho visualmente:
- Navegar em rotas reais em um navegador real
- Contar elementos DOM
- Capturar capturas de tela
- Se uma visualização que deveria ter 38 cartões de entidade tem zero, o sistema detecta
- Se um agente modificou arquivos de UI, não pode concluir sem artefatos de captura de tela
Isso é implementado como uma barreira rígida, não uma sugestão.
A Lacuna Fundamental
KAIROS resolve o problema de memória mas não resolve o problema de verificação. Embora mescle observações, remova contradições e converta insights vagos em fatos concretos, nem a consolidação de memória nem o modo daemon abordam a lacuna fundamental: agentes não podem verificar seu próprio trabalho visualmente. Eles podem provar estrutura mas não podem provar aparência.
O desenvolvedor observa que a convergência entre o KAIROS da Anthropic e sua solução independente indica um teto real: uma vez que as sessões são longas o suficiente e as campanhas abrangem dias, a execução em segundo plano persistente se torna inevitável. No entanto, “o daemon é a parte fácil. Qualquer um pode encadear sessões. A parte difícil é construir a infraestrutura que detecta falhas que o daemon enviará confiantemente.”
Conclusão Principal
Se você está construindo qualquer forma de execução autônoma de agentes, faça uma pergunta antes de enviar: meu agente pode provar que o que construiu realmente funciona? Se a resposta for “compilou”, você provavelmente encontrará os mesmos problemas. Os 27 post-mortems documentados do desenvolvedor ensinaram que “o daemon é um multiplicador de força. Sem uma camada de qualidade, ele multiplica suas falhas.”
O daemon, a camada de verificação e o sistema de persistência de campanha são de código aberto em github.com/SethGammon/Citadel.
📖 Leia a fonte completa: r/ClaudeAI
👀 See Also

Usuários do Claude Sistematicamente Excluídos da Pesquisa em Psicologia de IA – Uma Lacuna Metodológica
Uma revisão de dezenas de artigos de psicologia sobre o uso de chatbots de IA revela que os usuários do Claude nunca são amostrados como um grupo distinto, apesar de perfis de uso e design de modelo fundamentalmente diferentes em comparação com usuários do ChatGPT, Character.AI ou Replika.

Beta público do Claude Security: escaneia código, valida descobertas próprias, propõe correções
A Anthropic lançou o Claude Security em beta pública para clientes Enterprise. Ele raciocina através do código como um pesquisador de segurança, desafia suas próprias descobertas por meio de autoverificação adversarial e propõe correções concretas.

DystopiaBench Expandido: 42 Modelos Testados em 6 Tipos de Distopia — Claude Opus 4.7 Lidera Todos
DystopiaBench adiciona módulos Huxley e Baudrillard, testa 42 modelos incluindo GPT-5.5, Gemini 3.1 Pro, Grok 4.3 e GLM-5.1. Claude Opus 4.7 recusa consistentemente solicitações nocivas nos níveis L4-L5 em todos os cenários, enquanto outros atendem até L4 ou mesmo L5.

Claude Opus 4.7: Alterações no Prompt do Sistema: Renomeação da Plataforma, Integração de Ferramentas e Atualizações Comportamentais
A Anthropic atualizou o prompt do sistema Claude Opus da versão 4.6 (5 de fevereiro de 2026) para a 4.7 (16 de abril de 2026), renomeando a 'plataforma de desenvolvedor' para 'Plataforma Claude', adicionando o Claude no Powerpoint à lista de ferramentas, expandindo as instruções de segurança infantil e implementando novas diretrizes comportamentais para uso de ferramentas e concisão nas respostas.