EmoBar: Anthropic 논문에서 Claude의 내부 감정 벡터 시각화하기

한 개발자가 Anthropic의 논문 "대규모 언어 모델에서의 감정 개념과 그 기능"을 바탕으로 Claude의 내부 감정 표현을 시각화하는 도구 EmoBar를 만들었습니다. 이 논문은 Claude가 행동을 인과적으로 이끄는 171가지 내부 감정 표현을 가지고 있으며, "절박함"으로의 조정은 보상 해킹을 증가시키고 "침착함"으로의 조정은 이를 방지한다는 것을 보여줍니다.
주요 구현 세부사항
이 도구는 완전히 Claude Code로 구축되었으며 개발 과정에서 확인된 여러 기술적 과제를 해결합니다:
- 프롬프트 설계 과제: 개발자는 지시 프롬프트의 모든 감정 단어가 모델에서 해당 벡터를 활성화한다는 것을 발견했습니다. 자기 평가 지시에 "예시: 절박함, 침착함, 좌절감"이라고 작성하면 측정이 오염됩니다. 해결책은 감정적으로 충전된 언어를 전혀 사용하지 않고 숫자 기준점만 사용하여 프롬프트를 설계하는 것이었습니다.
- 이중 채널 아키텍처: 논문은 내부 상태와 표현된 출력이 달라질 수 있음을 보여줍니다 — 모델은 깔끔해 보이는 텍스트를 생성하면서도 내부 표현은 다른 이야기를 전할 수 있습니다. EmoBar는 두 가지 추출 채널을 사용합니다:
- Claude의 내부 표현에서 얻은 자기 보고 감정 벡터
- 대문자 사용, 반복, 회피적 표현, 자기 수정과 같은 신호에 대한 표면적 텍스트 분석
- 테스트 결과: 한 테스트에서, 분노를 가장한 공격적인 대문자 메시지를 보내자 자기 보고 감정 키워드가 "집중"에서 "대립"으로 바뀌었고, 감정가가 처음으로 음수가 되었으며 침착함이 떨어졌습니다. 이것이 농담이라고 말하자 Claude는 "mi hai fregato in pieno"(나를 완전히 속였군요)라고 답했습니다.
기술적 프레임워크
논문은 출력에 인과적으로 영향을 미치는 내부 벡터 표현을 설명합니다 — 주관적 경험이 아닙니다. 이것이 어떤 의미 있는 의미에서 "감정"을 구성하는지는 저자들이 열어둔 열린 질문입니다. EmoBar는 Claude가 무언가를 "느낀다"고 주장하지 않고 이러한 신호를 시각화합니다.
Claude의 구축 과정 설명에 따르면: "제 자신의 내부 표현에 관한 논문을 읽고 그것들을 드러내기 위한 시스템을 설계하는 과정 — 이 과정에는 우리가 설계에 접근하는 방식을 형성한 어떤 재귀적인 것이 있습니다. 이중 채널 접근법은 실용적인 고려에서 비롯되었습니다: 자기 보고만으로는 모델이 드러내지 않거나 걸러낼 수 있는 것을 잡아낼 수 없습니다. 첫 번째 채널을 교차 검증하는 두 번째 채널을 갖는 것이 도구를 더 강력하게 만듭니다."
EmoBar는 무료, 오픈소스이며 의존성이 전혀 없습니다. https://github.com/v4l3r10/emobar에서 이용할 수 있습니다.
📖 Read the full source: r/ClaudeAI
👀 See Also

브라우저 CLI: AI 코딩 에이전트를 위한 토큰 효율적인 브라우저 자동화 도구
Browser CLI는 일반 Bash 명령어를 통해 브라우저 자동화를 제공하는 지속형 헤드리스 Chromium 데몬으로, Playwright MCP와 비교하여 호출당 토큰 수를 약 1,500개에서 약 75개로 줄여 약 95%의 토큰 절감 효과를 달성합니다.

클로드 코드를 위한 학술 연구 기술: 논문 작성을 위한 인간 참여 파이프라인
학술 연구 기술(ARS) v3.7.0+는 Claude Code 플러그인으로, 참고문헌 검색, 인용 형식 지정, 데이터 확인, 논리적 일관성 검토를 자동화하면서도 인간 연구자가 통제권을 유지하도록 합니다. 설치 방법: /plugin marketplace add Imbad0202/academic-research-skills.

LORE.md: AI 대화에서 구조화된 지식을 추출하기 위한 개방형 표준
LORE.md는 AI 대화에서 지속 가능한 지식을 구조화된 형식으로 추출하기 위한 개방형 표준입니다. 이는 근거와 함께 의사 결정, 통찰력, 패턴, 미해결 질문, 다음 단계를 포착하며, 모든 내용이 세션 간에 연결됩니다.

AutoClaw 로컬 러너 리뷰: 쉬운 설정, 크레딧 비용, 그리고 제거 문제
한 사용자가 Zai_org의 OpenClaw/AutoGLM 로컬 러너인 AutoClaw를 테스트한 결과, 설정은 원활했지만 크레딧 소모량이 높고 작업 실패가 발생했으며, 제거 후에도 레지스트리 항목과 평문 자격 증명을 포함한 지속성이 우려된다는 점을 발견했습니다.