Arnês de Agente Fora da Sandbox: Execução Durável e Inicializações a Frio

O blog da Mendral argumenta que o harness do agente — o loop que impulsiona um LLM enviando prompts, executando chamadas de ferramentas e realimentando os resultados — deve ser executado fora do sandbox, especialmente para agentes multi-usuário. Eles contrastam duas arquiteturas e detalham os três desafios que resolveram ao adotar o modelo externo.

Duas Arquiteturas

Harness dentro do sandbox: O loop vive no mesmo contêiner que o código com o qual trabalha. Chamadas de ferramentas (bash, read, write) são executadas localmente. Habilidades e memórias são arquivos no sistema de arquivos do contêiner. É o que o Claude Code faz localmente. Modelo de execução simples, mas as credenciais estão dentro do sandbox, o sandbox é a sessão (perdê-lo significa perder o progresso) e multi-usuário se torna um problema de sistema de arquivos distribuído.
Harness fora do sandbox: O loop é executado no backend e chama um sandbox por meio de uma API para executar ferramentas. As credenciais ficam fora do sandbox (nenhum modelo de permissão necessário). Os sandboxes podem ser suspensos quando ociosos, tornam-se descartáveis (sobrevivem a falhas) e o compartilhamento multi-usuário é um problema de banco de dados compartilhado, não de sistema de arquivos distribuído.

Três Desafios Resolvidos

Execução durável: Sessões de agente podem durar horas e devem sobreviver a implantações e falhas. A Mendral usa Inngest para checkpointing — cada turno é uma etapa e o loop continua de onde parou se o servidor reiniciar.
Ciclo de vida do sandbox com baixa latência de inicialização: O loop é suspenso na maioria das vezes (por exemplo, durante chamadas LLM). Eles usam Blaxel para retomar sandboxes do modo de espera em ~25ms, evitando inicializações a frio de segundos durante turnos interativos.
Abstração do sistema de arquivos: Com o harness e o sandbox em máquinas diferentes, um sistema de arquivos compartilhado não está mais disponível. A Mendral observa que precisou lidar com isso, mas o post foca nos dois primeiros como os principais problemas resolvidos.

O post conclui que o modelo externo é superior para configurações multi-usuário, apesar da complexidade da execução durável e do tratamento de inicialização a frio.

📖 Leia a fonte completa: HN AI Agents

Arnês de Agente Fora da Sandbox: Execução Durável & Inicializações a Frio

Duas Arquiteturas

Três Desafios Resolvidos

👀 See Also

Claude carece de memória de engenharia: incidente de plantão revela falta de recordação episódica em jornadas de depuração

Custo de Memória Agora é 63% do Custo de Chips de IA: Gasto com HBM Atinge US$ 32 Bilhões

O paradoxo do construir versus comprar na era dos agentes de IA

Título do artigo: "Claude Code supostamente recusa solicitações ou cobra a mais quando commits mencionam 'OpenClaw'"