Arnês de Agente Fora da Sandbox: Execução Durável & Inicializações a Frio

O blog da Mendral argumenta que o harness do agente — o loop que impulsiona um LLM enviando prompts, executando chamadas de ferramentas e realimentando os resultados — deve ser executado fora do sandbox, especialmente para agentes multi-usuário. Eles contrastam duas arquiteturas e detalham os três desafios que resolveram ao adotar o modelo externo.
Duas Arquiteturas
- Harness dentro do sandbox: O loop vive no mesmo contêiner que o código com o qual trabalha. Chamadas de ferramentas (bash, read, write) são executadas localmente. Habilidades e memórias são arquivos no sistema de arquivos do contêiner. É o que o Claude Code faz localmente. Modelo de execução simples, mas as credenciais estão dentro do sandbox, o sandbox é a sessão (perdê-lo significa perder o progresso) e multi-usuário se torna um problema de sistema de arquivos distribuído.
- Harness fora do sandbox: O loop é executado no backend e chama um sandbox por meio de uma API para executar ferramentas. As credenciais ficam fora do sandbox (nenhum modelo de permissão necessário). Os sandboxes podem ser suspensos quando ociosos, tornam-se descartáveis (sobrevivem a falhas) e o compartilhamento multi-usuário é um problema de banco de dados compartilhado, não de sistema de arquivos distribuído.
Três Desafios Resolvidos
- Execução durável: Sessões de agente podem durar horas e devem sobreviver a implantações e falhas. A Mendral usa Inngest para checkpointing — cada turno é uma etapa e o loop continua de onde parou se o servidor reiniciar.
- Ciclo de vida do sandbox com baixa latência de inicialização: O loop é suspenso na maioria das vezes (por exemplo, durante chamadas LLM). Eles usam Blaxel para retomar sandboxes do modo de espera em ~25ms, evitando inicializações a frio de segundos durante turnos interativos.
- Abstração do sistema de arquivos: Com o harness e o sandbox em máquinas diferentes, um sistema de arquivos compartilhado não está mais disponível. A Mendral observa que precisou lidar com isso, mas o post foca nos dois primeiros como os principais problemas resolvidos.
O post conclui que o modelo externo é superior para configurações multi-usuário, apesar da complexidade da execução durável e do tratamento de inicialização a frio.
📖 Leia a fonte completa: HN AI Agents
👀 See Also

Título: Atualizações nos Prompts do Sistema Claude Code: Novo Lembrete de Modificação de Arquivo e Esclarecimentos sobre REPL, Lembrete de Análise de Malware Removido
O Claude Code (CC) versões 2.1.124 (+166 tokens) e 2.1.126 (-87 tokens) atualizam o prompt do sistema: adiciona detecção de modificação de arquivo com aviso de orçamento excedido, substitui a função de identidade principal por instruções explícitas de harness, esclarece o comportamento de auto-await de thenables no REPL e remove o lembrete de análise de malware.

Os Principais Modelos de IA Apresentam Lacuna de Desempenho em Idiomas Não Ingleses
Uma análise recente mostra que os principais modelos de IA têm desempenho pior em idiomas diferentes do inglês, com o artigo recebendo 16 pontos e 3 comentários no Hacker News.

GM demite 600 trabalhadores de TI e contrata engenheiros focados em IA para desenvolvimento de agentes e modelos
A General Motors demitiu 600 funcionários de TI (~10% do departamento) para contratar profissionais com habilidades nativas em IA: desenvolvimento de agentes, engenharia de dados, engenharia em nuvem, engenharia de prompt.

A reescrita de 18 meses da base de código da Autonoma: lições sobre testes, dívida técnica e Server Actions
A Autonoma descartou 1,5 ano de código após escalar de 2 para 14 engenheiros, citando falta de testes, TypeScript não estrito e limitações das Server Actions como principais motivos para a reescrita.