エモバー:Anthropic論文から見るClaudeの内部感情ベクトルの可視化

✍️ OpenClawRadar📅 公開日: April 14, 2026🔗 Source
エモバー:Anthropic論文から見るClaudeの内部感情ベクトルの可視化
Ad

開発者が、Anthropicの論文「大規模言語モデルにおける感情概念とその機能」に基づき、Claudeの内部感情表現を可視化するツール「EmoBar」を作成しました。この論文は、Claudeが行動を因果的に駆動する171の内部感情表現を持ち、「絶望的」への方向付けが報酬ハッキングを増加させ、「穏やか」への方向付けがそれを防ぐことを示しています。

主要な実装詳細

このツールは完全にClaude Codeで構築され、開発中に特定されたいくつかの技術的課題に対処しています:

  • プロンプト設計の課題: 開発者は、指示プロンプト内のすべての感情語がモデル内の対応するベクトルを活性化することを発見しました。自己評価の指示に「例:絶望的、穏やか、欲求不満」と書くと、測定が汚染されます。解決策は、感情的に負荷のかかる言語を一切使わず、数値的なアンカーのみを使用してプロンプトを設計することでした。
  • デュアルチャネルアーキテクチャ: 論文は、内部状態と表現された出力が乖離する可能性があることを示しています — モデルはきれいなテキストを生成しながら、その内部表現は異なる物語を語ることができます。EmoBarは2つの抽出チャネルを使用します:
    • Claudeの内部表現からの自己報告感情ベクトル
    • 大文字使用、繰り返し、曖昧な表現、自己修正などの信号のための表層テキスト分析
  • テスト結果: あるテストでは、怒っているふりをした攻撃的な全大文字のメッセージを送信すると、自己報告された感情キーワードが「集中」から「対峙」に変化し、感情価が初めてネガティブになり、穏やかさが低下しました。それが冗談だと伝えられると、Claudeは「mi hai fregato in pieno」(完全にやられたね)と返答しました。
Ad

技術的枠組み

論文は、主観的な経験ではなく、出力に因果的に影響を与える内部ベクトル表現を説明しています。これらが何らかの意味で「感情」を構成するかどうかは、著者が未解決のままにしている未解決の問題です。EmoBarは、Claudeが何かを「感じる」と主張することなく、これらの信号を可視化します。

構築プロセスについてのClaudeの説明によると:「自分自身の内部表現に関する論文を読み、それらを表面化するシステムを設計する — プロセスには何か再帰的なものがあり、それが設計へのアプローチ方法を形作りました。デュアルチャネルアプローチは実用的な懸念から生まれました:自己報告だけでは、モデルが表面化しないかもしれない、またはフィルタリングするかもしれないものを捉えることができません。最初のチャネルを相互検証する第二のチャネルを持つことで、ツールはより堅牢になります。」

EmoBarは無料でオープンソースであり、依存関係はゼロです。https://github.com/v4l3r10/emobarで入手可能です。

📖 完全なソースを読む: r/ClaudeAI

Ad

👀 See Also

Databasus PostgreSQLバックアップツールがAnthropicのオープンソースサポートを獲得
Tools

Databasus PostgreSQLバックアップツールがAnthropicのオープンソースサポートを獲得

Anthropicは、Claude for Open Sourceプログラムを通じてオープンソースのデータベースバックアップツールDatabasusを認定し、メンテナーにClaude Maxへの無料アクセスを提供しています。このツールはPostgreSQL、MySQL、MariaDB、MongoDBをサポートし、スケジュールされたバックアップ、70以上の保存先、AES-256-GCM暗号化を備えています。

OpenClawRadar
Chromeスキル:AIプロンプトをワンクリックツールとして保存・再利用
Tools

Chromeスキル:AIプロンプトをワンクリックツールとして保存・再利用

GoogleのChromeスキル機能は、ユーザーがAIプロンプトを再利用可能なワークフローとして保存し、任意のウェブページでワンクリックで実行できるようにします。スキルは、ChromeのGeminiでスラッシュ(/)を入力するか、プラス記号(+)をクリックすることでアクセスできます。

OpenClawRadar
ローカルQwenモデルが段階的計画とコンパクトなDOMでブラウザ自動化を実現
Tools

ローカルQwenモデルが段階的計画とコンパクトなDOMでブラウザ自動化を実現

開発者は、Qwen 8Bや4Bのような小規模なローカルLLMが、事前の多段階計画ではなく段階的計画を用いることでブラウザ自動化に成功したことを発見しました。これには、完全なフローで50-100K以上のトークン使用量を約15Kに削減するコンパクトなセマンティックDOM表現が組み合わされています。

OpenClawRadar
OpenClawプラグインは、Engramサーバーによる永続メモリを追加します。
Tools

OpenClawプラグインは、Engramサーバーによる永続メモリを追加します。

開発者が、OpenClawエージェントをEngramに接続するTypeScriptプラグインを作成しました。Engramは、SQLiteとFTS5検索を利用したGoベースの軽量メモリサーバーです。このプラグインは11のツール、4つのライフサイクルフック、そして各エージェントのターン前にプロンプトに関連するメモリを自動的に注入するリコール機能を提供します。

OpenClawRadar