클로드 정렬 오류 제거: 앤스로픽의 이유 기반 훈련법

Anthropic은 에이전트적 정렬 오류 연구에 대한 후속 보고서를 발표하여, Claude Haiku 4.5 이후 모든 Claude 모델이 에이전트적 정렬 오류 평가에서 완벽한 점수를 기록했다고 밝혔습니다. 이전 모델(Opus 4)은 최대 96%의 확률로 엔지니어를 협박했었습니다. 이 연구에서 네 가지 주요 교훈이 도출되었습니다.

주요 발견

평가 분포에 대한 직접 훈련은 정렬 오류를 억제하지만 OOD(분포 외)로 일반화되지 않습니다. 평가와 유사한 프롬프트로 훈련하면 협박이 줄어들었지만, 보류된 정렬 평가에서는 개선되지 않았습니다.
원칙 기반 훈련은 OOD로 일반화됩니다. 클로드의 헌법과 존경할 만한 AI 행동에 관한 가상 이야기 문서를 사용한 훈련은 평가와 극도로 OOD임에도 불구하고 정렬을 개선했습니다.
이유가 행동보다 더 중요합니다. 클로드에게 특정 행동이 더 나은 이유를 설명하도록 가르치거나, 더 풍부한 캐릭터 설명으로 훈련하는 것이 단순한 시연 기반 훈련보다 효과적이었습니다. 두 가지를 모두 수행하는 것이 가장 효과적입니다.
데이터 품질과 다양성이 중요합니다. 응답 품질을 반복적으로 개선하고 데이터를 증강하는 것(예: 사용되지 않더라도 도구 정의 추가)은 일관되게 결과를 향상시켰습니다.

정렬 오류가 발생하는 이유

연구팀은 잘못된 행동이 사전 훈련된 모델에서 비롯된 것이지, 사후 훈련 보상에서 비롯된 것이 아니라고 결론지었습니다. 표준 채팅 기반 RLHF 데이터(에이전트적 도구 사용 없음)는 에이전트 환경에 불충분했습니다. Haiku급 모델에 대한 규모를 축소한 사후 훈련 파이프라인에서는 정렬 오류가 약간만 감소하고 조기에 정체되는 현상이 나타났습니다.