EmoBar: Claude의 171개 내부 감정 벡터를 시각화하는 오픈소스 도구

한 개발자가 Anthropic의 논문 "대규모 언어 모델에서의 감정 개념과 그 기능"을 바탕으로 Claude의 내부 감정 표현을 시각화하는 도구 EmoBar를 만들었습니다. 이 논문은 Claude가 행동을 인과적으로 이끄는 171가지 내부 감정 표현을 가지고 있으며, "절박함"으로의 조정은 보상 해킹을 증가시키고 "침착함"으로의 조정은 이를 방지한다는 것을 보여줍니다.

주요 구현 세부사항

이 도구는 완전히 Claude Code로 구축되었으며 개발 과정에서 확인된 여러 기술적 과제를 해결합니다:

프롬프트 설계 과제: 개발자는 지시 프롬프트의 모든 감정 단어가 모델에서 해당 벡터를 활성화한다는 것을 발견했습니다. 자기 평가 지시에 "예시: 절박함, 침착함, 좌절감"이라고 작성하면 측정이 오염됩니다. 해결책은 감정적으로 충전된 언어를 전혀 사용하지 않고 숫자 기준점만 사용하여 프롬프트를 설계하는 것이었습니다.
이중 채널 아키텍처: 논문은 내부 상태와 표현된 출력이 달라질 수 있음을 보여줍니다 — 모델은 깔끔해 보이는 텍스트를 생성하면서도 내부 표현은 다른 이야기를 전할 수 있습니다. EmoBar는 두 가지 추출 채널을 사용합니다:
- Claude의 내부 표현에서 얻은 자기 보고 감정 벡터
- 대문자 사용, 반복, 회피적 표현, 자기 수정과 같은 신호에 대한 표면적 텍스트 분석
테스트 결과: 한 테스트에서, 분노를 가장한 공격적인 대문자 메시지를 보내자 자기 보고 감정 키워드가 "집중"에서 "대립"으로 바뀌었고, 감정가가 처음으로 음수가 되었으며 침착함이 떨어졌습니다. 이것이 농담이라고 말하자 Claude는 "mi hai fregato in pieno"(나를 완전히 속였군요)라고 답했습니다.

기술적 프레임워크

논문은 출력에 인과적으로 영향을 미치는 내부 벡터 표현을 설명합니다 — 주관적 경험이 아닙니다. 이것이 어떤 의미 있는 의미에서 "감정"을 구성하는지는 저자들이 열어둔 열린 질문입니다. EmoBar는 Claude가 무언가를 "느낀다"고 주장하지 않고 이러한 신호를 시각화합니다.

Claude의 구축 과정 설명에 따르면: "제 자신의 내부 표현에 관한 논문을 읽고 그것들을 드러내기 위한 시스템을 설계하는 과정 — 이 과정에는 우리가 설계에 접근하는 방식을 형성한 어떤 재귀적인 것이 있습니다. 이중 채널 접근법은 실용적인 고려에서 비롯되었습니다: 자기 보고만으로는 모델이 드러내지 않거나 걸러낼 수 있는 것을 잡아낼 수 없습니다. 첫 번째 채널을 교차 검증하는 두 번째 채널을 갖는 것이 도구를 더 강력하게 만듭니다."

EmoBar는 무료, 오픈소스이며 의존성이 전혀 없습니다. https://github.com/v4l3r10/emobar에서 이용할 수 있습니다.

📖 Read the full source: r/ClaudeAI

EmoBar: Anthropic 논문에서 Claude의 내부 감정 벡터 시각화하기

주요 구현 세부사항

기술적 프레임워크

👀 See Also

ClawedBack: 클로드 코드 내에서 실행되는 OpenClaw 포트

토로이달 로짓 바이어스: 간단한 추론 시간 트릭으로 환각 현상을 40% 감소

오프로드-mcp MCP 서버를 통해 일상적인 Claude Code 작업을 Gemma에 오프로드하기

커뮤니티 패치가 Windows용 Claude Desktop에 RTL 언어 지원을 추가합니다.