샌드박스 외부의 에이전트 하네스: 지속적 실행 및 콜드 스타트

Mendral의 블로그는 에이전트 하네스, 즉 프롬프트 전송, 도구 호출 실행, 결과 피드백을 통해 LLM을 구동하는 루프가 샌드박스 외부에서 실행되어야 한다고 주장하며, 특히 다중 사용자 에이전트의 경우 더욱 그렇다고 강조합니다. 두 가지 아키텍처를 대조하고 외부 모델을 채택할 때 해결한 세 가지 과제를 자세히 설명합니다.
두 가지 아키텍처
- 샌드박스 내부 하네스: 루프가 작업 중인 코드와 동일한 컨테이너 내에 있습니다. 도구 호출(bash, 읽기, 쓰기)은 로컬에서 실행됩니다. 스킬과 메모리는 컨테이너 파일 시스템의 파일입니다. 이것이 Claude Code가 로컬에서 작동하는 방식입니다. 실행 모델은 간단하지만, 자격 증명이 샌드박스 내부에 있고, 샌드박스가 세션이므로(세션을 잃으면 진행 상황도 손실됨), 다중 사용자는 분산 파일 시스템 문제가 됩니다.
- 샌드박스 외부 하네스: 루프가 백엔드에서 실행되고 API를 통해 샌드박스를 호출하여 도구를 실행합니다. 자격 증명은 샌드박스 외부에 유지되므로(권한 모델이 필요 없음), 샌드박스는 유휴 상태일 때 일시 중단될 수 있고, 컨테이너처럼 관리 가능하며(실패에도 복원 가능), 다중 사용자 공유는 분산 파일 시스템 문제가 아닌 공유 데이터베이스 문제가 됩니다.
해결된 세 가지 과제
- 내구성 있는 실행: 에이전트 세션은 몇 시간 동안 실행될 수 있으며 배포 및 실패 상황에서도 유지되어야 합니다. Mendral은 체크포인팅을 위해 Inngest를 사용합니다. 각 턴은 단계이며, 서버가 재시작되면 루프는 중단된 지점부터 계속 진행됩니다.
- 낮은 콜드 스타트를 가진 샌드박스 수명 주기: 루프는 대부분의 시간(예: LLM 호출 중) 동안 일시 중단됩니다. 그들은 Blaxel을 사용하여 대기 상태에서 약 25ms 내에 샌드박스를 재개함으로써 대화형 턴 중 수 초의 콜드 스타트를 방지합니다.
- 파일 시스템 추상화: 하네스와 샌드박스가 다른 기계에 있으면 공유 파일 시스템을 더 이상 사용할 수 없습니다. Mendral은 이를 처리해야 했다고 언급하지만, 게시물은 처음 두 가지를 핵심 해결 과제로 집중합니다.
게시물은 내구성 있는 실행과 콜드 스타트 처리의 복잡성에도 불구하고 외부 모델이 다중 사용자 설정에 더 우수하다고 결론짓습니다.
📖 Read the full source: HN AI Agents
👀 See Also

인지 부채: AI 출력이 이해를 앞지를 때
Reddit 게시물이 '인지적 부채' — AI 생성 출력과 팀의 이해 사이의 격차 — 를 논의하며, 창의적 통제는 실제로 출시한 것을 아는 것이라고 주장합니다. 해당 게시물 자체는 Claude의 도움으로 작성되어 아이러니를 자아냅니다.

Claude-Code v2.1.72: SSH 개선, 권한 요청 감소 및 버그 수정
Claude-Code v2.1.72는 SSH 친화적인 파일 쓰기 기능을 /copy w 키로 추가하고, 일반적인 도구들을 자동 승인 허용 목록에 추가하여 bash 권한 프롬프트를 줄였으며, 음성 모드 문제와 플러그인 설치 문제를 포함한 20개 이상의 버그를 수정했습니다.

클로드 서비스 장애: 모든 플랫폼에서 오류 증가
2026년 3월 2일, Claude는 claude.ai, 콘솔, Claude Code 플랫폼 전반에서 오류가 증가했으며, 로그인/로그아웃 경로와 일부 API 메서드에 영향을 미쳤습니다. 이 사고는 약 4시간 후에 해결되었습니다.

펜타곤과 AI 기업 안트로픽 간 긴장 고조
미 국방부가 베네수엘라에서의 기습 작전 등 비밀 작전에 Anthropic의 AI를 사용한 것은 해당 기업의 AI 안전 정책을 둘러싼 긴장을 초래했습니다.