Arnés de Agente Fuera del Sandbox: Ejecución Duradera y Arranques en Frío

El blog de Mendral argumenta que el arnés del agente — el bucle que impulsa un LLM enviando avisos, ejecutando llamadas a herramientas y devolviendo los resultados — debería ejecutarse fuera del sandbox, especialmente para agentes multiusuario. Comparan dos arquitecturas y detallan los tres desafíos que resolvieron al adoptar el modelo externo.
Dos Arquitecturas
- Arnés dentro del sandbox: El bucle reside en el mismo contenedor que el código sobre el que trabaja. Las llamadas a herramientas (bash, read, write) se ejecutan localmente. Las habilidades y memorias son archivos en el sistema de archivos del contenedor. Esto es lo que hace Claude Code localmente. Modelo de ejecución simple, pero las credenciales están dentro del sandbox, el sandbox es la sesión (perderlo significa perder el progreso), y el multiusuario se convierte en un problema de sistema de archivos distribuido.
- Arnés fuera del sandbox: El bucle se ejecuta en el backend y llama a un sandbox a través de una API para ejecutar herramientas. Las credenciales se mantienen fuera del sandbox (no se necesita un modelo de permisos). Los sandboxes pueden suspenderse cuando están inactivos, se convierten en recursos desechables (sobreviven a fallos), y el uso compartido multiusuario es un problema de base de datos compartida, no de sistema de archivos distribuido.
Tres Desafíos Resueltos
- Ejecución duradera: Las sesiones de agente pueden durar horas y deben sobrevivir a despliegues y fallos. Mendral utiliza Inngest para el checkpointing — cada turno es un paso, y el bucle retoma donde lo dejó si el servidor se reinicia.
- Ciclo de vida del sandbox con bajos arranques en frío: El bucle está suspendido la mayor parte del tiempo (p. ej., durante las llamadas al LLM). Utilizan Blaxel para reanudar sandboxes desde el modo de espera en ~25ms, evitando arranques en frío de varios segundos durante turnos interactivos.
- Abstracción del sistema de archivos: Con el arnés y el sandbox en diferentes máquinas, ya no hay un sistema de archivos compartido. Mendral señala que tuvieron que manejar esto, pero la publicación se centra en los dos primeros como los problemas clave resueltos.
La publicación concluye que el modelo externo es superior para configuraciones multiusuario a pesar de la complejidad de la ejecución duradera y el manejo de arranques en frío.
📖 Leer la fuente completa: HN AI Agents
👀 Ver también

Prompt de sistema completo de Claude Opus 4.6 filtrado en GitHub
El prompt de sistema completo para Claude Opus 4.6 ha sido publicado en GitHub.

Claude.ai está experimentando errores elevados y problemas de inicio de sesión
Claude.ai está reportando errores elevados que afectan la plataforma, incluyendo problemas de inicio de sesión específicamente para Claude Code. El incidente fue publicado oficialmente el 11 de marzo de 2026 a las 17:19:35 UTC.

TranslateGemma-12b: La revisión humana detecta el 71% de errores que pasan desapercibidos para las métricas automatizadas
Una auditoría humana MQM marcó el 71% de los segmentos de traducción que las métricas automatizadas calificaron como limpios, y todos los 25 errores de precisión estaban en el cuadrante ciego a las métricas.

Método Simple de Auto-Destilación Mejora la Generación de Código en LLM
Los investigadores demuestran que el ajuste fino de LLMs en sus propias salidas muestreadas (auto-distilación simple) mejora el rendimiento en generación de código, aumentando Qwen3-30B-Instruct del 42.4% al 55.3% en pass@1 en LiveCodeBench v6.