샌드박스 외부 에이전트 하네스: 지속적 실행 및 콜드 스타트 해결

Mendral의 블로그는 에이전트 하네스, 즉 프롬프트 전송, 도구 호출 실행, 결과 피드백을 통해 LLM을 구동하는 루프가 샌드박스 외부에서 실행되어야 한다고 주장하며, 특히 다중 사용자 에이전트의 경우 더욱 그렇다고 강조합니다. 두 가지 아키텍처를 대조하고 외부 모델을 채택할 때 해결한 세 가지 과제를 자세히 설명합니다.

두 가지 아키텍처

샌드박스 내부 하네스: 루프가 작업 중인 코드와 동일한 컨테이너 내에 있습니다. 도구 호출(bash, 읽기, 쓰기)은 로컬에서 실행됩니다. 스킬과 메모리는 컨테이너 파일 시스템의 파일입니다. 이것이 Claude Code가 로컬에서 작동하는 방식입니다. 실행 모델은 간단하지만, 자격 증명이 샌드박스 내부에 있고, 샌드박스가 세션이므로(세션을 잃으면 진행 상황도 손실됨), 다중 사용자는 분산 파일 시스템 문제가 됩니다.
샌드박스 외부 하네스: 루프가 백엔드에서 실행되고 API를 통해 샌드박스를 호출하여 도구를 실행합니다. 자격 증명은 샌드박스 외부에 유지되므로(권한 모델이 필요 없음), 샌드박스는 유휴 상태일 때 일시 중단될 수 있고, 컨테이너처럼 관리 가능하며(실패에도 복원 가능), 다중 사용자 공유는 분산 파일 시스템 문제가 아닌 공유 데이터베이스 문제가 됩니다.

해결된 세 가지 과제

내구성 있는 실행: 에이전트 세션은 몇 시간 동안 실행될 수 있으며 배포 및 실패 상황에서도 유지되어야 합니다. Mendral은 체크포인팅을 위해 Inngest를 사용합니다. 각 턴은 단계이며, 서버가 재시작되면 루프는 중단된 지점부터 계속 진행됩니다.
낮은 콜드 스타트를 가진 샌드박스 수명 주기: 루프는 대부분의 시간(예: LLM 호출 중) 동안 일시 중단됩니다. 그들은 Blaxel을 사용하여 대기 상태에서 약 25ms 내에 샌드박스를 재개함으로써 대화형 턴 중 수 초의 콜드 스타트를 방지합니다.
파일 시스템 추상화: 하네스와 샌드박스가 다른 기계에 있으면 공유 파일 시스템을 더 이상 사용할 수 없습니다. Mendral은 이를 처리해야 했다고 언급하지만, 게시물은 처음 두 가지를 핵심 해결 과제로 집중합니다.

게시물은 내구성 있는 실행과 콜드 스타트 처리의 복잡성에도 불구하고 외부 모델이 다중 사용자 설정에 더 우수하다고 결론짓습니다.

📖 Read the full source: HN AI Agents

샌드박스 외부의 에이전트 하네스: 지속적 실행 및 콜드 스타트

두 가지 아키텍처

해결된 세 가지 과제

👀 See Also

왜 OpenClaw는 토큰을 그렇게 빨리 소각하나요? 현상 탐구

졸업식장에서 AI 격려사에 야유한 졸업생들: 개발자 정서의 신호

AI 쿼리 효율성을 위한 적응형 추론 경로 제안

Claude Code v2.1.193: 새로운 셸 분류, 텔레메트리 및 수정 사항