サンドボックス外のエージェントハーネス: 持続的実行とコールドスタート

✍️ OpenClawRadar📅 公開日: May 3, 2026🔗 Source
サンドボックス外のエージェントハーネス: 持続的実行とコールドスタート
Ad

Mendralのブログでは、エージェントハーネス(LLMにプロンプトを送信し、ツールコールを実行し、結果をフィードバックするループ)は、特にマルチユーザーエージェントの場合、サンドボックスの外部で実行すべきだと主張しています。2つのアーキテクチャを比較し、外部モデルを採用する際に解決した3つの課題を詳述しています。

2つのアーキテクチャ

  • ハーネスをサンドボックス内に配置: ループは、処理対象のコードと同じコンテナ内に存在します。ツールコール(bash、read、write)はローカルで実行されます。スキルやメモリはコンテナのファイルシステム上のファイルです。これはClaude Codeがローカルで行っている方法です。実行モデルはシンプルですが、認証情報がサンドボックス内にあり、サンドボックスがセッションそのものであるため(セッションを失うと進捗も失われる)、マルチユーザー環境では分散ファイルシステムの問題が生じます。
  • ハーネスをサンドボックス外に配置: ループはバックエンドで実行され、APIを介してサンドボックスを呼び出してツールを実行します。認証情報はサンドボックス外に保たれるため、権限モデルが不要になります。サンドボックスはアイドル時に一時停止でき、使い捨て可能(障害に耐える)になり、マルチユーザー共有は分散ファイルシステムではなく共有データベースの問題になります。
Ad

解決した3つの課題

  1. 永続的な実行: エージェントセッションは数時間実行される可能性があり、デプロイや障害にも耐える必要があります。MendralはチェックポイントにInngestを使用しています。各ターンがステップとなり、サーバーが再起動してもループは中断したところから再開します。
  2. 低コールドスタートを実現するサンドボックスのライフサイクル: ループはほとんどの時間(LLM呼び出し中など)中断されています。Blaxelを使用して、スタンバイ状態から約25msでサンドボックスを再開し、インタラクティブなターン中の数秒に及ぶコールドスタートを回避しています。
  3. ファイルシステムの抽象化: ハーネスとサンドボックスが異なるマシン上にあるため、共有ファイルシステムは利用できなくなります。Mendralはこれに対処する必要があったと述べていますが、この記事では最初の2つを解決すべき主要な課題として焦点を当てています。

この記事では、永続的な実行とコールドスタート処理の複雑さにもかかわらず、外部モデルがマルチユーザー設定に優れていると結論付けています。

📖 Read the full source: HN AI Agents

Ad

👀 See Also

2,181のリモートMCPサーバーエンドポイントの分析により、信頼性の問題が明らかになりました
News

2,181のリモートMCPサーバーエンドポイントの分析により、信頼性の問題が明らかになりました

2,181のリモート対応MCPサーバーエンドポイントを対象とした自動化されたヘルスチェックの結果、正常に稼働していることが確認されたのはわずか9%で、52%は完全にダウン、37%は認証が必要な状態であることが判明しました。データにはカテゴリー別の内訳、レイテンシー測定、稼働率統計が含まれています。

OpenClawRadar
AI依存の罠:LLMへの過度な依存が中核スキルを損なう理由
News

AI依存の罠:LLMへの過度な依存が中核スキルを損なう理由

AIチャットボットへの過度の依存が、批判的思考、文章作成、調査、学習能力の衰退につながるという逆張りの主張。

OpenClawRadar
Slurmコーディング:時間が消えるAI駆動開発パターン
News

Slurmコーディング:時間が消えるAI駆動開発パターン

ある開発者が、AIコーディングツールによって可能になった強烈な開発パターンを「スラームコーディング」と表現しています。小さなアイデアが、迅速な実装とドーパミンのフィードバックループを通じて、完全なシステムへと急速にエスカレートする様子を指します。

OpenClawRadar
オープンソースモデルは、ベンチマークでClaude Opus 4.6に匹敵するか、あるいは上回る性能を示しています。
News

オープンソースモデルは、ベンチマークでClaude Opus 4.6に匹敵するか、あるいは上回る性能を示しています。

DeepSeek V3.2、DeepSeek R1、Kimi K2.5、MiniMax M2.5は、MMLU-Pro、速度、ツール使用、推論を含む5つの主要ベンチマークのうち4つでClaude Opus 4.6を上回り、大幅に低コストです。

OpenClawRadar