OpenClaw 게이트웨이 좀비화 고장: 25일 사용 후 침묵하는 문제 해결

게이트웨이 실패 패턴

OpenClaw 사용자가 약 25일 동안 18개 이상의 크론 작업과 Telegram 통합으로 시스템을 매일 운영하면서 반복되는 신뢰성 문제를 기록했습니다. 게이트웨이는 완전히 충돌하지는 않지만 '좀비화' 상태에 들어가 상태는 '실행 중'으로 표시되면서 모든 기능이 중단됩니다. 크론 작업은 무기한 멈추고, 메시지 전송이 실패하며, 건강 상태 모니터 크론 작업 자체를 포함한 어떤 경고도 생성되지 않습니다.

발견된 구체적인 문제

구성에서 잘못된 모델: 게이트웨이가 쓰기 시점에 잘못된 구성을 수락한 후 즉시 거부하지 않고 모든 에이전트 턴에서 조용히 실패했습니다.
세션 정지: 연결 오류로 인해 자동 복구나 알림 없이 15분 동안 서비스 중단이 발생했습니다.
세션 파일 잠금이 영구적으로 유지됨: 멈춘 도구 호출이 쓰기 잠금을 무기한 유지하여 모든 크론 작업을 차단합니다. 유일한 해결책은 완전한 재시작입니다.
부팅 시 게이트웨이가 시작되지 않음: macOS에서 LaunchAgent가 신뢰할 수 없어 @reboot sleep 30 크론탭 해결책이 필요했습니다.
재시작 시 크론 타이밍 재설정: 재시작 후 작업이 다시 실행되거나 시간대를 놓칩니다. 모델 별칭도 간헐적으로 깨집니다.
격리된 세션에서 크론 전송 실패: 메시지 도구가 격리된 세션에서 전송 권한이 없어 페이로드 재구성이 필요합니다.
주요 사고: 세션 쓰기 잠금이 4.3시간 동안 유지되면서 7개의 크론 작업이 유령 '실행' 상태에 갇혔습니다. 동시에 업데이트로 플러그인 경로와 모델 카탈로그 모듈이 깨졌습니다.