Sandbox vs Dauerhafte Agenten: Kaltstart-Latenz lösen

In Mendrals Blog wird argumentiert, dass die Agenten-Harness – die Schleife, die ein LLM antreibt, indem sie Prompts sendet, Tool-Aufrufe ausführt und Ergebnisse zurückführt – außerhalb der Sandbox laufen sollte, insbesondere bei Multi-User-Agenten. Es werden zwei Architekturen gegenübergestellt und die drei Herausforderungen detailliert beschrieben, die bei der Einführung des Außenmodells gelöst wurden.

Zwei Architekturen

Harness innerhalb der Sandbox: Die Schleife lebt im selben Container wie der Code, an dem sie arbeitet. Tool-Aufrufe (bash, read, write) werden lokal ausgeführt. Skills und Speicher sind Dateien im Dateisystem des Containers. So arbeitet Claude Code lokal. Einfaches Ausführungsmodell, aber Anmeldeinformationen befinden sich in der Sandbox, die Sandbox ist die Sitzung (Verlust der Sandbox bedeutet Verlust des Fortschritts), und Multi-User wird zu einem Problem mit verteilten Dateisystemen.
Harness außerhalb der Sandbox: Die Schleife läuft auf dem Backend und greift über eine API auf eine Sandbox zu, um Tools auszuführen. Anmeldeinformationen bleiben außerhalb der Sandbox (kein Berechtigungsmodell erforderlich). Sandboxen können bei Inaktivität pausiert werden, werden zu Wegwerfobjekten (überleben Fehler), und die gemeinsame Nutzung durch mehrere Benutzer ist ein Problem einer gemeinsamen Datenbank, nicht eines verteilten Dateisystems.

Drei gelöste Herausforderungen

Dauerhafte Ausführung: Agentensitzungen können Stunden dauern und müssen Deployments und Fehler überstehen. Mendral verwendet Inngest zum Setzen von Kontrollpunkten – jede Runde ist ein Schritt, und die Schleife setzt dort fort, wo sie aufgehört hat, falls der Server neu startet.
Sandbox-Lebenszyklus mit niedrigen Kaltstarts: Die Schleife ist die meiste Zeit pausiert (z. B. während LLM-Aufrufen). Sie verwenden Blaxel, um Sandboxen in etwa 25 ms aus dem Standby zu reaktivieren, wodurch sekundenlange Kaltstarts bei interaktiven Runden vermieden werden.
Dateisystem-Abstraktion: Da Harness und Sandbox auf verschiedenen Maschinen laufen, steht kein gemeinsames Dateisystem mehr zur Verfügung. Mendral erwähnt, dass dies behandelt werden musste, aber der Beitrag konzentriert sich auf die ersten beiden als die wichtigsten gelösten Probleme.

Der Beitrag schließt mit der Feststellung, dass das Außenmodell für Multi-User-Setups überlegen ist, trotz der Komplexität von dauerhafter Ausführung und Kaltstart-Handling.

📖 Read the full source: HN AI Agents

Agenten-Geschirr außerhalb der Sandbox: Dauerhafte Ausführung & Kaltstarts

Zwei Architekturen

Drei gelöste Herausforderungen

👀 Siehe auch

YC-Bench-Benchmark testet LLMs als Startup-CEOs, GLM-5 zeigt starke Kosteneffizienz

Claude Cowork für Windows ARM64 veröffentlicht mit Kompatibilitätsprüfer

Claude-Cowork-Nutzungslimits bis zum 5. Juli auf 10 Stunden verdoppelt

KI-Abonnements brauchen einen zuverlässigen Zähler: Ein Ruf nach Transparenz der Dienste