Steerling-8B: Ein interpretierbares Sprachmodell mit Token-Level-Attribution

✍️ OpenClawRadar📅 Veröffentlicht: 24. Februar 2026🔗 Source
Steerling-8B: Ein interpretierbares Sprachmodell mit Token-Level-Attribution
Ad

Modellarchitektur und Fähigkeiten

Steerling-8B basiert auf einem kausalen diskreten Diffusionsmodell, das die Steuerung der Generierung über mehrere Token-Sequenzen hinweg ermöglicht und nicht nur auf der Ebene des nächsten Tokens. Das Schlüsseldesign zerlegt die Einbettungen des Modells in drei explizite Pfade: etwa 33.000 überwachte "bekannte" Konzepte, etwa 100.000 "entdeckte" Konzepte, die das Modell selbst lernt, und eine Restkomponente, die verbleibende Informationen erfasst.

Das Modell verwendet Trainingsverlustfunktionen, die die Signalweiterleitung durch Konzepte ohne grundlegende Leistungseinbußen sicherstellen. Konzepte fließen über einen linearen Pfad in die Logits ein, sodass sich jede Vorhersage genau in Beiträge pro Konzept zerlegen lässt. Diese Beiträge können zur Inferenzzeit ohne erneutes Training bearbeitet werden.

Leistungs- und Interpretierbarkeitsmetriken

Trotz des Trainings mit deutlich weniger Rechenleistung als vergleichbare Modelle erreicht Steerling-8B wettbewerbsfähige Leistungen in Standardbenchmarks. Das Modell übertrifft sowohl LLaMA2-7B als auch Deepseek-7B im Gesamtdurchschnitt, obwohl es weniger FLOPs verwendet, und bleibt im Bereich von Modellen, die mit 2-10× mehr Rechenleistung trainiert wurden.

Auf einem zurückgehaltenen Validierungssatz stammen über 84 % der Token-Beiträge aus dem Konzeptmodul, was darauf hindeutet, dass das Modell nicht nur den Restpfad für Vorhersagen nutzt. Wenn der Restpfad entfernt wird, zeigt die Leistung bei mehreren LM-Harness-Aufgaben nur einen geringen Effekt, was darauf hindeutet, dass das Vorhersagesignal des Modells größtenteils über Konzepte und nicht über versteckte Kanäle geleitet wird.

Steerling kann bekannte Konzepte in Texten mit 96,2 % AU (Fläche unter der Kurve) erkennen.

Ad

Praktische Funktionen

Für jede Gruppe von Ausgabetokens, die Steerling generiert, können Benutzer diese Tokens zurückverfolgen zu:

  • Eingabekontext: Die spezifischen Prompt-Tokens, die die Ausgabe beeinflusst haben
  • Konzepte: Menschenverständliche Themen in den Darstellungen des Modells (sowohl Stil wie "analytisch, klinisch" als auch Inhalt wie "Methoden der genetischen Veränderung")
  • Trainingsdaten: Die Trainingsdatenquellen, die die Ausgabe beeinflusst haben, mit Aufschlüsselung über Quellen wie ArXiv, Wikipedia und FLAN

Das Modell ermöglicht die Ausrichtung zur Inferenzzeit durch Konzeptsteuerung und ersetzt Tausende von Sicherheitstrainingsbeispielen durch explizite Steuerung auf Konzeptebene. Es erlaubt auch, bestimmte Konzepte zur Inferenzzeit ohne erneutes Training zu unterdrücken oder zu verstärken.

Verfügbare Artefakte

  • Modellgewichte auf Hugging Face verfügbar
  • Begleitcode auf GitHub
  • Paket auf PyPI

📖 Read the full source: HN AI Agents

Ad

👀 Siehe auch

Effizienter Workflow mit Claude Code: Planung vor der Ausführung
Werkzeuge

Effizienter Workflow mit Claude Code: Planung vor der Ausführung

Boris Tane nutzt Claude Code mit einem strukturierten, planungsorientierten Ansatz, der sich auf detaillierte Forschung und Planung konzentriert, um die Kontrolle über Architekturentscheidungen zu behalten.

OpenClawRadar
Claudes stiller Absturz: Der Ausfall der Handlungsebene, wenn KI-Agenten auf Geschäftsseiten treffen
Werkzeuge

Claudes stiller Absturz: Der Ausfall der Handlungsebene, wenn KI-Agenten auf Geschäftsseiten treffen

Claude kann Geschäftsseiten (Preise, Buchungsabläufe, Formulare) lesen, scheitert jedoch an der Handlungsebene – Buchung, Übermittlung oder Weiterleitung – aufgrund fehlender aufrufbarer Endpunkte. Dies verursacht unsichtbare Nutzerabbrüche ohne Analysesignal.

OpenClawRadar
iKnowKungFu Skill analysiert die Verwendung von OpenClaw, um fehlende Fähigkeiten zu empfehlen
Werkzeuge

iKnowKungFu Skill analysiert die Verwendung von OpenClaw, um fehlende Fähigkeiten zu empfehlen

iknowkungfu ist eine neue OpenClaw-Fähigkeit, die den Arbeitsbereich, Speicherdateien und Konversationsprotokolle Ihres Agenten scannt, um basierend auf Ihren tatsächlichen Nutzungsmustern zu identifizieren, welche Fähigkeiten Ihnen fehlen. Es bietet spezifische Empfehlungen mit Vertrauenswerten und Begründungen, die an Ihren Arbeitsablauf geknüpft sind.

OpenClawRadar
Brainstorm MCP Server ermöglicht es Claude, andere LLMs zu konsultieren, um bessere Antworten zu erhalten
Werkzeuge

Brainstorm MCP Server ermöglicht es Claude, andere LLMs zu konsultieren, um bessere Antworten zu erhalten

Ein Entwickler hat einen MCP-Server erstellt, der es Claude Code ermöglicht, andere KI-Modelle wie GPT-5.2 und DeepSeek zu konsultieren, bevor es Antworten liefert. Die Modelle führen mehrstufige Debatten, in denen sie die Antworten der anderen lesen, widersprechen und ihre Positionen verfeinern, um zu besseren Lösungen zu gelangen.

OpenClawRadar