Steerling-8B: Un modelo de lenguaje interpretable con atribución a nivel de token

Arquitectura y Capacidades del Modelo
Steerling-8B está construido sobre una arquitectura de modelo de difusión discreta causal que permite dirigir la generación a través de secuencias de múltiples tokens en lugar de solo a nivel del siguiente token. El diseño clave descompone las incrustaciones del modelo en tres vías explícitas: aproximadamente 33,000 conceptos "conocidos" supervisados, aproximadamente 100,000 conceptos "descubiertos" que el modelo aprende por sí mismo, y un componente residual que captura la información restante.
El modelo utiliza funciones de pérdida de entrenamiento que aseguran el enrutamiento de señales a través de conceptos sin compromisos fundamentales de rendimiento. Los conceptos se alimentan en los logits a través de una ruta lineal, permitiendo que cada predicción se descomponga exactamente en contribuciones por concepto. Estas contribuciones pueden editarse en tiempo de inferencia sin necesidad de reentrenamiento.
Métricas de Rendimiento e Interpretabilidad
A pesar de estar entrenado con significativamente menos recursos computacionales que modelos comparables, Steerling-8B logra un rendimiento competitivo en puntos de referencia estándar. El modelo supera tanto a LLaMA2-7B como a Deepseek-7B en promedio general a pesar de usar menos FLOPs, y se mantiene dentro del rango de modelos entrenados con 2-10× más recursos computacionales.
En un conjunto de validación reservado, más del 84% de la contribución a nivel de token proviene del módulo de conceptos, indicando que el modelo no solo usa el componente residual para hacer predicciones. Cuando se elimina la vía residual, el rendimiento en varias tareas de LM Harness muestra solo un efecto pequeño, sugiriendo que la señal predictiva del modelo se enruta principalmente a través de conceptos en lugar de canales ocultos.
Steerling puede detectar conceptos conocidos en texto con 96.2% AU (Área Bajo la curva).
Características Prácticas
Para cualquier grupo de tokens de salida que Steerling genere, los usuarios pueden rastrear estos tokens hasta:
- Contexto de entrada: Los tokens específicos del prompt que influyeron en la salida
- Conceptos: Temas comprensibles para humanos en las representaciones del modelo (tanto tono como "analítico, clínico" y contenido como "Metodologías de alteración genética")
- Datos de entrenamiento: Las fuentes de datos de entrenamiento que impulsaron la salida, mostrando distribución entre fuentes como ArXiv, Wikipedia y FLAN
El modelo permite la alineación en tiempo de inferencia mediante control de conceptos, reemplazando miles de ejemplos de entrenamiento de seguridad con dirección explícita a nivel de concepto. También permite suprimir o amplificar conceptos específicos en tiempo de inferencia sin reentrenamiento.
Artefactos Disponibles
- Pesos del modelo disponibles en Hugging Face
- Código complementario en GitHub
- Paquete en PyPI
📖 Read the full source: HN AI Agents
👀 Ver también

La Herramienta MCP GrapeRoot Reduce el Uso de Tokens de Código de Claude en un 50-70%
Un desarrollador creó GrapeRoot, una herramienta MCP que utiliza Claude Code, que rastrea archivos explorados y evita volver a leer contenido sin cambios, reduciendo el uso de tokens en un 50-70% y haciendo que los planes de Claude Code de $20 duren 2-3 veces más.

Extensión de Chrome Agrega Vista Previa en Vivo a Claude Code Web
Una extensión de Chrome llamada Claude Code Preview agrega funcionalidad de vista previa en vivo a Claude Code Web, similar a Lovable y otros sitios de 'vibecoding', permitiendo la visualización lado a lado de despliegues.

civStation: Herramienta VLM de Código Abierto para el Control por Lenguaje Natural de Civilization VI
civStation es una pila de uso informático de código abierto que permite el control por voz y lenguaje natural de Civilization VI, traduciendo comandos de estrategia de alto nivel en acciones de interfaz de usuario a través de un bucle de observación y ejecución basado en VLM.

SDK de código abierto para el trabajo de conocimiento en IA
ClioAI ha lanzado el <strong>kw-sdk</strong>, un Kit de Desarrollo de Software de código abierto diseñado para dar estructura a los agentes de IA que realizan tareas en sectores de trabajo del conocimiento, como investigación, análisis, estrategia y redacción. A diferencia de los marcos de código tradicionales, que tienen señales naturales de verificación a través de pruebas, el trabajo del conocimiento requiere enfoques estructurados para la verificación y evaluación de tareas.