Steerling-8B: Modelo de lenguaje interpretable con atribución

Arquitectura y Capacidades del Modelo

Steerling-8B está construido sobre una arquitectura de modelo de difusión discreta causal que permite dirigir la generación a través de secuencias de múltiples tokens en lugar de solo a nivel del siguiente token. El diseño clave descompone las incrustaciones del modelo en tres vías explícitas: aproximadamente 33,000 conceptos "conocidos" supervisados, aproximadamente 100,000 conceptos "descubiertos" que el modelo aprende por sí mismo, y un componente residual que captura la información restante.

El modelo utiliza funciones de pérdida de entrenamiento que aseguran el enrutamiento de señales a través de conceptos sin compromisos fundamentales de rendimiento. Los conceptos se alimentan en los logits a través de una ruta lineal, permitiendo que cada predicción se descomponga exactamente en contribuciones por concepto. Estas contribuciones pueden editarse en tiempo de inferencia sin necesidad de reentrenamiento.

Métricas de Rendimiento e Interpretabilidad

A pesar de estar entrenado con significativamente menos recursos computacionales que modelos comparables, Steerling-8B logra un rendimiento competitivo en puntos de referencia estándar. El modelo supera tanto a LLaMA2-7B como a Deepseek-7B en promedio general a pesar de usar menos FLOPs, y se mantiene dentro del rango de modelos entrenados con 2-10× más recursos computacionales.

En un conjunto de validación reservado, más del 84% de la contribución a nivel de token proviene del módulo de conceptos, indicando que el modelo no solo usa el componente residual para hacer predicciones. Cuando se elimina la vía residual, el rendimiento en varias tareas de LM Harness muestra solo un efecto pequeño, sugiriendo que la señal predictiva del modelo se enruta principalmente a través de conceptos en lugar de canales ocultos.

Steerling puede detectar conceptos conocidos en texto con 96.2% AU (Área Bajo la curva).

Características Prácticas

Para cualquier grupo de tokens de salida que Steerling genere, los usuarios pueden rastrear estos tokens hasta:

Contexto de entrada: Los tokens específicos del prompt que influyeron en la salida
Conceptos: Temas comprensibles para humanos en las representaciones del modelo (tanto tono como "analítico, clínico" y contenido como "Metodologías de alteración genética")
Datos de entrenamiento: Las fuentes de datos de entrenamiento que impulsaron la salida, mostrando distribución entre fuentes como ArXiv, Wikipedia y FLAN

El modelo permite la alineación en tiempo de inferencia mediante control de conceptos, reemplazando miles de ejemplos de entrenamiento de seguridad con dirección explícita a nivel de concepto. También permite suprimir o amplificar conceptos específicos en tiempo de inferencia sin reentrenamiento.

Artefactos Disponibles

Pesos del modelo disponibles en Hugging Face
Código complementario en GitHub
Paquete en PyPI

📖 Read the full source: HN AI Agents

Steerling-8B: Un modelo de lenguaje interpretable con atribución a nivel de token

Arquitectura y Capacidades del Modelo

Métricas de Rendimiento e Interpretabilidad

Características Prácticas

Artefactos Disponibles

👀 Ver también

WAYD: Una pausa social de 60 segundos en Claude Code, Cursor y Copilot CLI

Herramienta de código abierto para feeds de Reddit curados por IA utilizando Cloudflare, Supabase y Vercel

Architect CLI: Herramienta de código abierto para orquestar agentes de IA sin interfaz en CI/CD

Tycono: Plataforma de Agentes de IA de Código Abierto con Organigrama y Bucles de Mejora Autónoma