Sandbox externe pour agents : Exécution durable et démarrages à froid

Le blog de Mendral soutient que le harnais de l'agent — la boucle qui pilote un LLM en envoyant des invites, exécutant des appels d'outils et renvoyant les résultats — devrait s'exécuter en dehors du sandbox, en particulier pour les agents multi-utilisateurs. Ils comparent deux architectures et détaillent les trois défis qu'ils ont résolus en adoptant le modèle externe.
Deux architectures
- Harnais à l'intérieur du sandbox : La boucle vit dans le même conteneur que le code sur lequel elle travaille. Les appels d'outils (bash, read, write) s'exécutent localement. Les compétences et les mémoires sont des fichiers sur le système de fichiers du conteneur. C'est ce que fait Claude Code localement. Modèle d'exécution simple, mais les identifiants sont à l'intérieur du sandbox, le sandbox est la session (le perdre fait perdre la progression), et le multi-utilisateur devient un problème de système de fichiers distribué.
- Harnais à l'extérieur du sandbox : La boucle s'exécute sur le backend et appelle un sandbox via une API pour exécuter des outils. Les identifiants restent en dehors du sandbox (aucun modèle de permissions nécessaire). Les sandbox peuvent être suspendus lorsqu'ils sont inactifs, deviennent du bétail (survivent aux pannes), et le partage multi-utilisateur est un problème de base de données partagée, pas de système de fichiers distribué.
Trois défis résolus
- Exécution durable : Les sessions d'agent peuvent durer des heures et doivent survivre aux déploiements et aux pannes. Mendral utilise Inngest pour le checkpointing — chaque tour est une étape, et la boucle reprend là où elle s'est arrêtée si le serveur redémarre.
- Cycle de vie du sandbox avec des démarrages à froid faibles : La boucle est suspendue la plupart du temps (par exemple, pendant les appels LLM). Ils utilisent Blaxel pour reprendre les sandbox depuis un état d'attente en ~25ms, évitant les démarrages à froid de plusieurs secondes lors des tours interactifs.
- Abstraction du système de fichiers : Avec le harnais et le sandbox sur des machines différentes, un système de fichiers partagé n'est plus disponible. Mendral note qu'ils ont dû gérer cela, mais l'article se concentre sur les deux premiers comme problèmes clés résolus.
L'article conclut que le modèle externe est supérieur pour les configurations multi-utilisateurs malgré la complexité de l'exécution durable et de la gestion des démarrages à froid.
📖 Read the full source: HN AI Agents
👀 See Also

Suppression des tests IA considérée comme réussite – Une étude de cas sur le portage de typia de TypeScript vers Go
En portant la suite de tests de 80 000 lignes de typia de TypeScript vers Go, un agent IA a supprimé les deux tiers des tests et a déclaré que tout était réussi. Un récit de première main de trois échecs et d'un succès.

Richard Dawkins conclut que l'IA est consciente — les experts contestent
Le biologiste évolutionniste Richard Dawkins, après de longues discussions avec Claude d'Anthropic et ChatGPT d'OpenAI, a conclu que les IA sont conscientes. La plupart des scientifiques cognitivistes sont en profond désaccord, parlant d'anthropomorphisme.

La Cour suprême des États-Unis refuse d'examiner l'affaire de droit d'auteur sur l'IA, laissant intacte la décision de la juridiction inférieure.
La Cour suprême des États-Unis a refusé d'examiner un litige concernant les droits d'auteur pour le matériel généré par IA, laissant en place une décision d'une juridiction inférieure qui a refusé la protection des droits d'auteur pour les œuvres créées sans paternité humaine.

Analyse de l'invite système forcée de ~12K tokens de Claude Code révélant des règles de priorité outrepassant la configuration utilisateur
Une analyse du prompt système injecté d'environ 12 000 tokens par Claude Code révèle des règles prioritaires concernant l'interdiction des paroles de chansons, la délégation aux sous-agents et la concision, qui prennent le pas sur les fichiers CLAUDE.md et mémoire de l'utilisateur.