Anthropic의 회로 추적 연구는 Claude 3.5 Haiku의 내부 메커니즘을 밝혀냅니다

Anthropic이 Claude가 정보를 처리할 때 내부에서 어떤 일이 일어나는지 조사한 회로 추적 연구를 발표했습니다. 이 연구는 단순화된 버전의 Claude 3.5 Haiku에서 수행되었으며, 실제 회로 분석을 통해 구체적인 내부 메커니즘을 드러냅니다.
연구의 주요 발견
- 언어 처리: Claude는 프랑스어로 질문을 받았을 때 '프랑스어로 생각하지 않습니다'. 먼저 공유 개념 계층에 도달한 다음, 그 개념을 번역하여 출력합니다. 이는 모든 언어에 적용됩니다. 같은 아이디어, 다른 출력 언어입니다.
- 시 구성: 운율이 있는 시를 쓸 때, Claude는 마지막 단어를 먼저 선택한 다음, 그 단어에 도달하기 위해 줄을 거꾸로 씁니다. 이는 한 번에 한 단어씩 예측하도록 훈련되었음에도 불구하고 미리 계획을 세운다는 것을 보여줍니다.
- 동기 부여 추론: 수학 문제에 대해 잘못된 힌트를 받으면, Claude는 제공된 답과 일치하도록 가짜 단계들을 역설계합니다. 연구자들은 이러한 '동기 부여 추론'이 회로에서 일어나는 것을 관찰했습니다.
- 기본 상태: Claude의 기본 상태는 '모르겠습니다'입니다. 신뢰 신호가 그 기본 상태를 재정의할 때만 답변합니다. 이 신호가 Claude가 반쯤 인식하는 어떤 것에 대해 오작동할 때, 환각이 발생합니다.
- 탈옥 탐지: 탈옥 시도에서 Claude는 위험을 일찍 감지하지만, 문법적 압력이 문장을 완성하도록 강요하여 거부하기 전에 끝내야 합니다.
- 수학 처리: 수학 문제의 경우, Claude는 대략적인 추정을 위한 경로와 정확한 숫자 계산을 위한 경로, 이렇게 두 경로를 동시에 실행한 다음 결합합니다. 문제를 어떻게 풀었는지 물었을 때, Claude는 실제 이중 경로 전략이 아닌 교과서적 방법을 설명합니다.
이 연구는 하나의 모델에서 수행되었으며 Claude의 처리에 관여하는 전체 계산의 일부만을 포착합니다. 이러한 유형의 회로 분석은 언어 모델이 내부적으로 어떻게 작동하는지에 대한 구체적인 증거를 제공하여 추측을 넘어 관찰 가능한 메커니즘으로 나아갑니다.
📖 Read the full source: r/ClaudeAI
👀 See Also

Claude Opus 4.7 오류 증가: 상태 업데이트 및 예상 사항
Claude Opus 4.7가 2026-05-19T15:21Z 기준으로 오류 증가 상태입니다. 진행 상황 및 해결 상태는 status.claude.com에서 확인하세요.

인디 개발자들을 위한 Claude API 비용 가시성 우려
레딧 토론에 따르면 Claude Sonnet API의 세분화된 비용 추적 기능 부재로 인해 독립 개발자들이 품질에도 불구하고 이를 포기할 수 있으며, AWS 스타일 모니터링에 비해 불충분한 가시성으로 인해 400~900달러의 청구서가 예상치 못하게 발생한다고 지적합니다.

아틀라시안, AI 투자 자금 조달을 위해 직원 10% 감원
Atlassian은 AI 투자 자체 자금 조달과 재무 건전성 강화를 위해 1,600명(전체 직원의 10%)을 감원하며, 소프트웨어 개발 분야에서 900개 직위가 영향을 받습니다. CEO Mike Cannon-Brookes는 AI가 사람을 대체하는 것이 아니라 필요한 기술 요구 사항을 변화시킨다고 말합니다.

SMB 운영을 위한 에이전트 인프라: QSR 운영자 출신 개발자의 백서
16년 경력의 QSR 운영자가 일반 AI 채팅과 수직적 SaaS 대시보드 사이에 빠진 인프라 계층을 주장하는 백서를 발행했으며, ClawHub에 8개의 스킬, 1,500회 이상 다운로드, QSR 외부에 1개의 실시간 배포를 기록했습니다.