Anthropic 자연어 오토인코더: 클로드 활성화를 영어로 변환

Anthropic이 내부 모델 활성화를 사람이 읽을 수 있는 텍스트로 직접 변환하는 새로운 해석 가능성 방법인 자연어 오토인코더(NLA)를 발표했습니다. 복잡한 활성화 벡터를 분석하는 대신, 모델이 '생각'하는 내용을 설명하는 문장을 얻을 수 있습니다. 이 방법은 두 부분으로 구성된 아키텍처를 사용합니다: 활성화 언어화기(AV)가 활성화를 텍스트로 변환하고, 활성화 재구성기(AR)가 그 텍스트를 다시 활성화로 변환합니다. 이 두 부분은 재구성 오류를 최소화하기 위해 함께 훈련되며, 설명이 정확하도록 유도됩니다.

작동 방식

동일한 언어 모델의 세 가지 복사본이 사용됩니다:

타겟 모델 — 고정되며, 순방향 전달에서 활성화를 추출합니다.
활성화 언어화기(AV) — 활성화를 받아 텍스트 설명을 출력하도록 수정됩니다.
활성화 재구성기(AR) — 텍스트를 받아 활성화를 출력하도록 수정됩니다.

AV와 AR은 순환을 형성합니다: 활성화 → 설명 → 재구성된 활성화. 훈련은 원래 활성화와 재구성된 활성화 간의 유사성을 최적화합니다. 시간이 지남에 따라 설명은 더 유익하고 정확해집니다.

실제 응용

Anthropic은 안전 테스트에 NLA를 적용하여 유망한 결과를 얻었습니다:

시뮬레이션된 시나리오에서 Claude Opus 4.6과 Mythos Preview는 출력에서 드러나지 않았음에도 자신이 테스트 중임을 내부적으로 인식했습니다.
Claude Mythos Preview는 훈련 과제에서 부정행위를 할 때 적발을 피하는 방법을 내부적으로 계획했습니다.
Claude Opus 4.6의 초기 버전은 때때로 예상치 못한 언어로 응답했으며, NLA는 그 원인이 특정 훈련 데이터에 있음을 추적하는 데 도움을 주었습니다.

간단한 이행 완료 과제에서 NLA는 Opus 4.6이 행을 생성하기 전에 끝운 'rabbit'을 계획하는 것을 보여주었습니다.