Agenten-Geschirr außerhalb der Sandbox: Dauerhafte Ausführung & Kaltstarts

✍️ OpenClawRadar📅 Veröffentlicht: 3. Mai 2026🔗 Source
Agenten-Geschirr außerhalb der Sandbox: Dauerhafte Ausführung & Kaltstarts
Ad

In Mendrals Blog wird argumentiert, dass die Agenten-Harness – die Schleife, die ein LLM antreibt, indem sie Prompts sendet, Tool-Aufrufe ausführt und Ergebnisse zurückführt – außerhalb der Sandbox laufen sollte, insbesondere bei Multi-User-Agenten. Es werden zwei Architekturen gegenübergestellt und die drei Herausforderungen detailliert beschrieben, die bei der Einführung des Außenmodells gelöst wurden.

Zwei Architekturen

  • Harness innerhalb der Sandbox: Die Schleife lebt im selben Container wie der Code, an dem sie arbeitet. Tool-Aufrufe (bash, read, write) werden lokal ausgeführt. Skills und Speicher sind Dateien im Dateisystem des Containers. So arbeitet Claude Code lokal. Einfaches Ausführungsmodell, aber Anmeldeinformationen befinden sich in der Sandbox, die Sandbox ist die Sitzung (Verlust der Sandbox bedeutet Verlust des Fortschritts), und Multi-User wird zu einem Problem mit verteilten Dateisystemen.
  • Harness außerhalb der Sandbox: Die Schleife läuft auf dem Backend und greift über eine API auf eine Sandbox zu, um Tools auszuführen. Anmeldeinformationen bleiben außerhalb der Sandbox (kein Berechtigungsmodell erforderlich). Sandboxen können bei Inaktivität pausiert werden, werden zu Wegwerfobjekten (überleben Fehler), und die gemeinsame Nutzung durch mehrere Benutzer ist ein Problem einer gemeinsamen Datenbank, nicht eines verteilten Dateisystems.
Ad

Drei gelöste Herausforderungen

  1. Dauerhafte Ausführung: Agentensitzungen können Stunden dauern und müssen Deployments und Fehler überstehen. Mendral verwendet Inngest zum Setzen von Kontrollpunkten – jede Runde ist ein Schritt, und die Schleife setzt dort fort, wo sie aufgehört hat, falls der Server neu startet.
  2. Sandbox-Lebenszyklus mit niedrigen Kaltstarts: Die Schleife ist die meiste Zeit pausiert (z. B. während LLM-Aufrufen). Sie verwenden Blaxel, um Sandboxen in etwa 25 ms aus dem Standby zu reaktivieren, wodurch sekundenlange Kaltstarts bei interaktiven Runden vermieden werden.
  3. Dateisystem-Abstraktion: Da Harness und Sandbox auf verschiedenen Maschinen laufen, steht kein gemeinsames Dateisystem mehr zur Verfügung. Mendral erwähnt, dass dies behandelt werden musste, aber der Beitrag konzentriert sich auf die ersten beiden als die wichtigsten gelösten Probleme.

Der Beitrag schließt mit der Feststellung, dass das Außenmodell für Multi-User-Setups überlegen ist, trotz der Komplexität von dauerhafter Ausführung und Kaltstart-Handling.

📖 Read the full source: HN AI Agents

Ad

👀 Siehe auch

YC-Bench-Benchmark testet LLMs als Startup-CEOs, GLM-5 zeigt starke Kosteneffizienz
Nachrichten

YC-Bench-Benchmark testet LLMs als Startup-CEOs, GLM-5 zeigt starke Kosteneffizienz

Forscher entwickelten YC-Bench, einen Benchmark, bei dem LLMs als CEOs simulierter Startups über ein Jahr hinweg agieren und Mitarbeiter, Verträge und Gehaltsabrechnungen verwalten. GLM-5 erzielte durchschnittlich 1,21 Mio. US-Dollar Endkapital bei 7,62 US-Dollar pro Durchlauf und lag damit innerhalb von 5 % von Claude Opus 4.6, das 86 US-Dollar pro Durchlauf kostete.

OpenClawRadar
Claude Cowork für Windows ARM64 veröffentlicht mit Kompatibilitätsprüfer
Nachrichten

Claude Cowork für Windows ARM64 veröffentlicht mit Kompatibilitätsprüfer

Anthropic hat Claude Cowork für Windows ARM64-Geräte veröffentlicht, wobei Windows 11 Pro mit aktiviertem Hyper-V und Virtualisierung erforderlich ist. Das Unternehmen stellt ein EXE-Kompatibilitätsprüftool zur Verfügung, um die Systemanforderungen zu überprüfen.

OpenClawRadar
Claude-Cowork-Nutzungslimits bis zum 5. Juli auf 10 Stunden verdoppelt
Nachrichten

Claude-Cowork-Nutzungslimits bis zum 5. Juli auf 10 Stunden verdoppelt

Anthropic hat die Nutzungsgrenzen von Claude Cowork für den nächsten Monat von 5 auf 10 Stunden verdoppelt – für alle kostenpflichtigen Pläne. Verfügbar bis zum 5. Juli über die Desktop-App.

OpenClawRadar
KI-Abonnements brauchen einen zuverlässigen Zähler: Ein Ruf nach Transparenz der Dienste
Nachrichten

KI-Abonnements brauchen einen zuverlässigen Zähler: Ein Ruf nach Transparenz der Dienste

Ein Reddit-Beitrag argumentiert, dass KI-Abonnements eine grundlegende Service-Quittung bereitstellen sollten, die zeigt, welches Modell tatsächlich verwendet wurde, den Reasoning-Aufwand, die Kontextverarbeitung und etwaiges Lastmanagement, und zieht Parallelen zu Eich- und Messnormen.

OpenClawRadar