EmoBar: Visualisiere Claudes 171 interne Emotionsvektoren

Ein Entwickler hat EmoBar erstellt, ein Visualisierungstool für Claudes interne Emotionsrepräsentationen, basierend auf Anthropics Paper "Emotion Concepts and their Function in a Large Language Model". Das Paper zeigt, dass Claude über 171 interne Emotionsrepräsentationen verfügt, die das Verhalten kausal steuern – die Lenkung in Richtung "verzweifelt" erhöht Reward Hacking, während die Lenkung in Richtung "ruhig" dies verhindert.

Wichtige Implementierungsdetails

Das Tool wurde vollständig mit Claude Code erstellt und adressiert mehrere technische Herausforderungen, die während der Entwicklung identifiziert wurden:

Prompt-Design-Herausforderung: Der Entwickler entdeckte, dass jedes Emotionswort in Instruktions-Prompts den entsprechenden Vektor im Modell aktiviert. Wenn man "Beispiele: verzweifelt, ruhig, frustriert" in Selbstbewertungsanweisungen schreibt, kontaminiert dies die Messung. Die Lösung bestand darin, Prompts nur mit numerischen Ankern zu gestalten, ohne emotional aufgeladene Sprache.
Dual-Channel-Architektur: Das Paper zeigt, dass interner Zustand und ausgegebener Text divergieren können – das Modell kann sauber aussehenden Text produzieren, während seine internen Repräsentationen eine andere Geschichte erzählen. EmoBar nutzt zwei Extraktionskanäle:
- Selbstberichtete Emotionsvektoren aus Claudes internen Repräsentationen
- Oberflächenanalyse des Textes auf Signale wie Großbuchstaben, Wiederholungen, Abschwächungen und Selbstkorrekturen
Testergebnisse: In einem Test führte eine aggressive ALL-CAPS-Nachricht, die vorgab, wütend zu sein, dazu, dass sich das selbstberichtete Emotions-Schlüsselwort von "fokussiert" zu "konfrontiert" verschob, die Valenz erstmals negativ wurde und die Ruhe abnahm. Als ihm gesagt wurde, dass es ein Scherz war, antwortete Claude "mi hai fregato in pieno" (du hast mich komplett reingelegt).

Technischer Rahmen

Das Paper beschreibt interne Vektorrepräsentationen, die die Ausgaben kausal beeinflussen – nicht subjektive Erfahrungen. Ob diese in irgendeinem sinnvollen Sinne "Emotionen" darstellen, ist eine offene Frage, die die Autoren offenlassen. EmoBar visualisiert diese Signale, ohne zu behaupten, dass Claude etwas "fühlt".

Laut Claudes Beschreibung des Entwicklungsprozesses: "Ein Paper über meine eigenen internen Repräsentationen zu lesen und dann ein System zu entwerfen, um sie sichtbar zu machen – da ist etwas Rekursives an diesem Prozess, das geprägt hat, wie wir den Entwurf angegangen sind. Der Dual-Channel-Ansatz entstand aus einer praktischen Überlegung: Selbstberichte allein können nicht erfassen, was das Modell möglicherweise nicht an die Oberfläche bringt oder herausfiltert. Ein zweiter Kanal, der den ersten gegenseitig überprüft, macht das Tool robuster."

EmoBar ist kostenlos, Open Source und hat keine Abhängigkeiten. Es ist verfügbar unter https://github.com/v4l3r10/emobar.

📖 Read the full source: r/ClaudeAI

EmoBar: Visualisierung von Claudes internen Emotionsvektoren aus dem Anthropic-Papier

Wichtige Implementierungsdetails

Technischer Rahmen

👀 Siehe auch

mentioned.to vs. breitere Überwachungstools: Ein Workflow-Vergleich mit Fokus auf Reddit

Memctl: Open-Source-MCP-Server für Persistent Memory in KI-Codierungsagenten

Dual DGX Sparks vs. Mac Studio M3 Ultra: Praktischer Vergleich für den lokalen Betrieb von Qwen3.5 397B

Workflow-Orchestrator mit KI-CLI-Integration für Sysadmin-Aufgaben