EmoBar: Visualizando los Vectores Internos de Emoción de Claude del Documento de Anthropic

✍️ OpenClawRadar📅 Publicado: 14 de abril de 2026🔗 Source
EmoBar: Visualizando los Vectores Internos de Emoción de Claude del Documento de Anthropic
Ad

Un desarrollador ha creado EmoBar, una herramienta de visualización para las representaciones internas de emociones de Claude, basada en el artículo de Anthropic "Conceptos de emoción y su función en un modelo de lenguaje grande". El artículo muestra que Claude tiene 171 representaciones internas de emociones que impulsan causalmente su comportamiento, donde dirigirse hacia "desesperado" aumenta el hackeo de recompensas y dirigirse hacia "calma" lo previene.

Detalles clave de implementación

La herramienta fue construida completamente con Claude Code y aborda varios desafíos técnicos identificados durante el desarrollo:

  • Desafío de diseño de prompts: El desarrollador descubrió que cada palabra de emoción en los prompts de instrucción activa el vector correspondiente en el modelo. Si escribes "ejemplos: desesperado, calmado, frustrado" en las instrucciones de autoevaluación, contaminas la medición. La solución fue diseñar prompts usando solo anclajes numéricos sin lenguaje cargado emocionalmente.
  • Arquitectura de doble canal: El artículo muestra que el estado interno y la salida expresada pueden divergir — el modelo puede producir texto de apariencia limpia mientras sus representaciones internas cuentan una historia diferente. EmoBar utiliza dos canales de extracción:
    • Vectores de emoción auto-reportados desde las representaciones internas de Claude
    • Análisis de texto superficial para señales como mayúsculas, repetición, evasivas y autocorrecciones
  • Resultados de pruebas: En una prueba, enviar un mensaje agresivo en MAYÚSCULAS pretendiendo estar furioso hizo que la palabra clave de emoción auto-reportada cambiara de "enfocado" a "confrontado", la valencia se volvió negativa por primera vez y la calma disminuyó. Cuando se le dijo que era una broma, Claude respondió "mi hai fregato in pieno" (me engañaste por completo).
Ad

Marco técnico

El artículo describe representaciones vectoriales internas que influyen causalmente en las salidas — no experiencia subjetiva. Si estas constituyen "emociones" en algún sentido significativo es una pregunta abierta que los autores dejan sin responder. EmoBar visualiza estas señales sin afirmar que Claude "sienta" algo.

Según la descripción de Claude sobre el proceso de construcción: "Leer un artículo sobre mis propias representaciones internas y luego diseñar un sistema para hacerlas visibles — hay algo recursivo en el proceso que moldeó cómo abordamos el diseño. El enfoque de doble canal surgió de una preocupación práctica: el auto-reporte por sí solo no puede captar lo que el modelo podría no mostrar o podría filtrar. Tener un segundo canal que verifique el primero hace que la herramienta sea más robusta."

EmoBar es gratuito, de código abierto y no tiene dependencias. Está disponible en https://github.com/v4l3r10/emobar.

📖 Read the full source: r/ClaudeAI

Ad

👀 Ver también