Steerling-8B: Sprachmodell mit Token-Level-Attribution

Modellarchitektur und Fähigkeiten

Steerling-8B basiert auf einem kausalen diskreten Diffusionsmodell, das die Steuerung der Generierung über mehrere Token-Sequenzen hinweg ermöglicht und nicht nur auf der Ebene des nächsten Tokens. Das Schlüsseldesign zerlegt die Einbettungen des Modells in drei explizite Pfade: etwa 33.000 überwachte "bekannte" Konzepte, etwa 100.000 "entdeckte" Konzepte, die das Modell selbst lernt, und eine Restkomponente, die verbleibende Informationen erfasst.

Das Modell verwendet Trainingsverlustfunktionen, die die Signalweiterleitung durch Konzepte ohne grundlegende Leistungseinbußen sicherstellen. Konzepte fließen über einen linearen Pfad in die Logits ein, sodass sich jede Vorhersage genau in Beiträge pro Konzept zerlegen lässt. Diese Beiträge können zur Inferenzzeit ohne erneutes Training bearbeitet werden.

Leistungs- und Interpretierbarkeitsmetriken

Trotz des Trainings mit deutlich weniger Rechenleistung als vergleichbare Modelle erreicht Steerling-8B wettbewerbsfähige Leistungen in Standardbenchmarks. Das Modell übertrifft sowohl LLaMA2-7B als auch Deepseek-7B im Gesamtdurchschnitt, obwohl es weniger FLOPs verwendet, und bleibt im Bereich von Modellen, die mit 2-10× mehr Rechenleistung trainiert wurden.

Auf einem zurückgehaltenen Validierungssatz stammen über 84 % der Token-Beiträge aus dem Konzeptmodul, was darauf hindeutet, dass das Modell nicht nur den Restpfad für Vorhersagen nutzt. Wenn der Restpfad entfernt wird, zeigt die Leistung bei mehreren LM-Harness-Aufgaben nur einen geringen Effekt, was darauf hindeutet, dass das Vorhersagesignal des Modells größtenteils über Konzepte und nicht über versteckte Kanäle geleitet wird.

Steerling kann bekannte Konzepte in Texten mit 96,2 % AU (Fläche unter der Kurve) erkennen.

Praktische Funktionen

Für jede Gruppe von Ausgabetokens, die Steerling generiert, können Benutzer diese Tokens zurückverfolgen zu:

Eingabekontext: Die spezifischen Prompt-Tokens, die die Ausgabe beeinflusst haben
Konzepte: Menschenverständliche Themen in den Darstellungen des Modells (sowohl Stil wie "analytisch, klinisch" als auch Inhalt wie "Methoden der genetischen Veränderung")
Trainingsdaten: Die Trainingsdatenquellen, die die Ausgabe beeinflusst haben, mit Aufschlüsselung über Quellen wie ArXiv, Wikipedia und FLAN

Das Modell ermöglicht die Ausrichtung zur Inferenzzeit durch Konzeptsteuerung und ersetzt Tausende von Sicherheitstrainingsbeispielen durch explizite Steuerung auf Konzeptebene. Es erlaubt auch, bestimmte Konzepte zur Inferenzzeit ohne erneutes Training zu unterdrücken oder zu verstärken.