Steerling-8B : Attribution aux tokens, modèle interprétable

Architecture du modèle et capacités

Steerling-8B repose sur une architecture de diffusion discrète causale qui permet d'orienter la génération sur des séquences multi-tokens plutôt qu'au niveau du token suivant uniquement. La conception clé décompose les embeddings du modèle en trois voies explicites : environ 33 000 concepts « connus » supervisés, environ 100 000 concepts « découverts » que le modèle apprend par lui-même, et une composante résiduelle qui capture les informations restantes.

Le modèle utilise des fonctions de perte d'entraînement qui assurent le routage du signal à travers les concepts sans compromettre fondamentalement les performances. Les concepts alimentent les logits via un chemin linéaire, permettant à chaque prédiction de se décomposer exactement en contributions par concept. Ces contributions peuvent être modifiées au moment de l'inférence sans réentraînement.

Mesures de performance et d'interprétabilité

Malgré un entraînement nécessitant significativement moins de calcul que des modèles comparables, Steerling-8B atteint des performances compétitives sur les benchmarks standards. Le modèle surpasse à la fois LLaMA2-7B et Deepseek-7B en moyenne globale malgré l'utilisation de moins de FLOPs, et reste dans la fourchette des modèles entraînés avec 2 à 10 fois plus de puissance de calcul.

Sur un ensemble de validation réservé, plus de 84 % de la contribution au niveau des tokens provient du module de concepts, indiquant que le modèle n'utilise pas seulement le résiduel pour faire des prédictions. Lorsque la voie résiduelle est supprimée, la performance sur plusieurs tâches LM Harness ne montre qu'un effet mineur, suggérant que le signal prédictif du modèle est largement acheminé via les concepts plutôt que par des canaux cachés.

Steerling peut détecter des concepts connus dans le texte avec une AUC (aire sous la courbe) de 96,2 %.

Fonctionnalités pratiques

Pour tout groupe de tokens de sortie généré par Steerling, les utilisateurs peuvent retracer ces tokens vers :

Contexte d'entrée : Les tokens spécifiques du prompt qui ont influencé la sortie
Concepts : Des sujets compréhensibles par l'humain dans les représentations du modèle (à la fois le ton comme « analytique, clinique » et le contenu comme « Méthodologies d'altération génétique »)
Données d'entraînement : Les sources de données d'entraînement qui ont conduit à la sortie, montrant la répartition entre des sources comme ArXiv, Wikipédia et FLAN

Le modèle permet un alignement au moment de l'inférence via le contrôle des concepts, remplaçant des milliers d'exemples d'entraînement de sécurité par un pilotage explicite au niveau conceptuel. Il permet également de supprimer ou d'amplifier des concepts spécifiques au moment de l'inférence sans réentraînement.