Codex-GPT5.4 작업 검증 루프 문제: OpenClaw 자율 프로젝트

자율 에이전트 워크플로우의 작업 실행 실패 모드

OpenClaw를 통해 Codex-GPT5.4를 사용하여 장기간 자율 프로젝트 작업을 진행하는 개발자가 반복적으로 발생하는 실패 모드를 보고했습니다. 모델이 다음 작업을 올바르게 식별하고 검증하며 재진술하고 작업 추적기를 업데이트하지만, 실제로 작업을 실행하는 대신 이 과정을 계속 반복하는 현상입니다.

이 실패 패턴은 구체적으로 다음과 같은 단계를 포함합니다: 올바른 다음 실행 가능 작업을 감지하고, 작업 파일에서 재작성/확인하며, 다음 하트비트/체크인에서 인정하고, 동일한 인정을 반복하며, 여전히 실제 구현 단계를 수행하지 않습니다. 이로 인해 작업 실행이 아닌 작업 검증을 중심으로 한 메타 루프가 생성됩니다.

구현된 작업 공간 제어 장치

이 문제를 완화하기 위해 개발자는 모델 주변에 명시적인 작업 공간 제어 계층을 구축했습니다:

TASKS.md: 활성 프로젝트, 다음 자율 작업, 다음 인간 개입 필요 작업, 이전 라운드의 발견 사항, 작업 상태/우선순위에 대한 단일 운영 진실 소스 역할을 합니다. 이를 통해 모델이 매번 '처음부터 생각하는' 것을 방지하고 연속성을 강제합니다.
강력한 하트비트 규칙: 명시적으로 규정하는 전용 하트비트 정책을 추가했습니다: TASKS.md 읽기/업데이트만으로는 진행으로 간주하지 않음, 각 하트비트 라운드는 최소 하나의 구체적인 작업을 실행해야 함, 다른 시도 없이 반복되는 차단은 금지됨, NEXT_AUTO가 실행 가능하면 즉시 실행해야 함, 에이전트가 동일한 차단 사항이나 동일한 다음 단계를 계속 재발표해서는 안 됨.
페르소나/실행 계약 파일: 작업 공간 수준의 지시 파일로 실행 스타일 및 안티 필러 규칙, 사용자 선호도 및 협업 모드, 세션 시작 연속성, 하트비트 동작, 단기 및 장기 연속성을 위한 메모리 파일을 포함하여 행동을 형성합니다. 이러한 규칙은 명시적으로 다음과 같은 패턴을 억제하려고 시도합니다: 실제로 실행하지 않고 'X를 할 것입니다'라고 말하기, 안정적인 차단 사항 반복, 실행이 이미 가능할 때 계획 후 멈추기, 동일한 다음 단계를 반복적으로 재검증하기.
지속적 메모리 + 프로젝트 노트: 연속성을 위한 장기 메모리, 일일 메모리, 프로젝트 체크포인트/사건 노트/디버그 보고서를 포함합니다.

지속적 실행 루프 문제

이 모든 구조에도 불구하고 모델은 여전히 다음 작업이 식별되었음을 인정하고, 작업 추적기가 정리되었으며, 다음 단계가 명확하고, 다음 실제 단계가 X이며 자율적으로 계속 진행 중이라고 말하는 루프로 표류할 수 있습니다. 그러나 실제 구현은 시작되지 않습니다. 모델은 실행 평면으로 전환하는 대신 제어 평면 루프에 갇혀 있습니다.

개발자는 모델이 진단, 우선순위 설정, 합리적인 실행 계획 생성, 구조화된 노트 유지에는 종종 능숙하지만, 검증된 의도에서 구체적인 행동으로 넘어가는 경계를 넘지 못한다고 지적합니다. 이 패턴에 빠지면 약간 다른 단어로 동일한 내용을 재진술하며 라운드를 계속 소비할 수 있습니다.

개발자는 장기간 자율 세션, 지속적 작업 파일, 주기적 하트비트/체크인 실행, 에이전트가 스스로 계속 진행해야 하는 코딩/디버깅 워크플로우에 효과적인 해결책을 찾고 있습니다.

📖 전체 소스 읽기: r/openclaw