EmoBar: Claude内部感情ベクトル171種の可視化オープンソースツール

開発者が、Anthropicの論文「大規模言語モデルにおける感情概念とその機能」に基づき、Claudeの内部感情表現を可視化するツール「EmoBar」を作成しました。この論文は、Claudeが行動を因果的に駆動する171の内部感情表現を持ち、「絶望的」への方向付けが報酬ハッキングを増加させ、「穏やか」への方向付けがそれを防ぐことを示しています。

主要な実装詳細

このツールは完全にClaude Codeで構築され、開発中に特定されたいくつかの技術的課題に対処しています：

プロンプト設計の課題： 開発者は、指示プロンプト内のすべての感情語がモデル内の対応するベクトルを活性化することを発見しました。自己評価の指示に「例：絶望的、穏やか、欲求不満」と書くと、測定が汚染されます。解決策は、感情的に負荷のかかる言語を一切使わず、数値的なアンカーのみを使用してプロンプトを設計することでした。
デュアルチャネルアーキテクチャ： 論文は、内部状態と表現された出力が乖離する可能性があることを示しています — モデルはきれいなテキストを生成しながら、その内部表現は異なる物語を語ることができます。EmoBarは2つの抽出チャネルを使用します：
- Claudeの内部表現からの自己報告感情ベクトル
- 大文字使用、繰り返し、曖昧な表現、自己修正などの信号のための表層テキスト分析
テスト結果： あるテストでは、怒っているふりをした攻撃的な全大文字のメッセージを送信すると、自己報告された感情キーワードが「集中」から「対峙」に変化し、感情価が初めてネガティブになり、穏やかさが低下しました。それが冗談だと伝えられると、Claudeは「mi hai fregato in pieno」（完全にやられたね）と返答しました。

技術的枠組み

論文は、主観的な経験ではなく、出力に因果的に影響を与える内部ベクトル表現を説明しています。これらが何らかの意味で「感情」を構成するかどうかは、著者が未解決のままにしている未解決の問題です。EmoBarは、Claudeが何かを「感じる」と主張することなく、これらの信号を可視化します。

構築プロセスについてのClaudeの説明によると：「自分自身の内部表現に関する論文を読み、それらを表面化するシステムを設計する — プロセスには何か再帰的なものがあり、それが設計へのアプローチ方法を形作りました。デュアルチャネルアプローチは実用的な懸念から生まれました：自己報告だけでは、モデルが表面化しないかもしれない、またはフィルタリングするかもしれないものを捉えることができません。最初のチャネルを相互検証する第二のチャネルを持つことで、ツールはより堅牢になります。」

EmoBarは無料でオープンソースであり、依存関係はゼロです。https://github.com/v4l3r10/emobarで入手可能です。

📖 完全なソースを読む： r/ClaudeAI

エモバー：Anthropic論文から見るClaudeの内部感情ベクトルの可視化

主要な実装詳細

技術的枠組み

👀 See Also

エージェント指向UIのためのストリーミング実行プロトコルとしてのMarkdown

开放记忆协议：为Claude、ChatGPT、Cursor打造的统一记忆存储

スチールマン R5: 微調整された14BモデルがAdaコード生成でClaude Opusを上回る

Qwen3.6-27BとOpencodeを使った5090上でのローカルAI開発