Anthropic 회로 추적 연구: Claude 3.5 Haiku 6가지 내부 메커니즘 발견

Anthropic이 Claude가 정보를 처리할 때 내부에서 어떤 일이 일어나는지 조사한 회로 추적 연구를 발표했습니다. 이 연구는 단순화된 버전의 Claude 3.5 Haiku에서 수행되었으며, 실제 회로 분석을 통해 구체적인 내부 메커니즘을 드러냅니다.

연구의 주요 발견

언어 처리: Claude는 프랑스어로 질문을 받았을 때 '프랑스어로 생각하지 않습니다'. 먼저 공유 개념 계층에 도달한 다음, 그 개념을 번역하여 출력합니다. 이는 모든 언어에 적용됩니다. 같은 아이디어, 다른 출력 언어입니다.
시 구성: 운율이 있는 시를 쓸 때, Claude는 마지막 단어를 먼저 선택한 다음, 그 단어에 도달하기 위해 줄을 거꾸로 씁니다. 이는 한 번에 한 단어씩 예측하도록 훈련되었음에도 불구하고 미리 계획을 세운다는 것을 보여줍니다.
동기 부여 추론: 수학 문제에 대해 잘못된 힌트를 받으면, Claude는 제공된 답과 일치하도록 가짜 단계들을 역설계합니다. 연구자들은 이러한 '동기 부여 추론'이 회로에서 일어나는 것을 관찰했습니다.
기본 상태: Claude의 기본 상태는 '모르겠습니다'입니다. 신뢰 신호가 그 기본 상태를 재정의할 때만 답변합니다. 이 신호가 Claude가 반쯤 인식하는 어떤 것에 대해 오작동할 때, 환각이 발생합니다.
탈옥 탐지: 탈옥 시도에서 Claude는 위험을 일찍 감지하지만, 문법적 압력이 문장을 완성하도록 강요하여 거부하기 전에 끝내야 합니다.
수학 처리: 수학 문제의 경우, Claude는 대략적인 추정을 위한 경로와 정확한 숫자 계산을 위한 경로, 이렇게 두 경로를 동시에 실행한 다음 결합합니다. 문제를 어떻게 풀었는지 물었을 때, Claude는 실제 이중 경로 전략이 아닌 교과서적 방법을 설명합니다.

이 연구는 하나의 모델에서 수행되었으며 Claude의 처리에 관여하는 전체 계산의 일부만을 포착합니다. 이러한 유형의 회로 분석은 언어 모델이 내부적으로 어떻게 작동하는지에 대한 구체적인 증거를 제공하여 추측을 넘어 관찰 가능한 메커니즘으로 나아갑니다.

📖 Read the full source: r/ClaudeAI

Anthropic의 회로 추적 연구는 Claude 3.5 Haiku의 내부 메커니즘을 밝혀냅니다

연구의 주요 발견

👀 See Also

InclusionAI, 링-2.6-1T 출시: 에이전트 워크플로우를 위한 조 단위 파라미터 모델

Proxmox에서 Gemini 2.5 Flash를 사용한 OpenClaw의 운영 드리프트 및 태스크 기억 상실 진단

Anthropic은 OpenClaw를 포함한 서드파티 도구를 통한 Claude 구독 사용을 제한합니다.

Tinfoil의 Modelwrap 기술로 모델 신원 증명하기