Steerling-8B : Un modèle de langage interprétable avec attribution au niveau des tokens

✍️ OpenClawRadar📅 Publié: February 24, 2026🔗 Source
Steerling-8B : Un modèle de langage interprétable avec attribution au niveau des tokens
Ad

Architecture du modèle et capacités

Steerling-8B repose sur une architecture de diffusion discrète causale qui permet d'orienter la génération sur des séquences multi-tokens plutôt qu'au niveau du token suivant uniquement. La conception clé décompose les embeddings du modèle en trois voies explicites : environ 33 000 concepts « connus » supervisés, environ 100 000 concepts « découverts » que le modèle apprend par lui-même, et une composante résiduelle qui capture les informations restantes.

Le modèle utilise des fonctions de perte d'entraînement qui assurent le routage du signal à travers les concepts sans compromettre fondamentalement les performances. Les concepts alimentent les logits via un chemin linéaire, permettant à chaque prédiction de se décomposer exactement en contributions par concept. Ces contributions peuvent être modifiées au moment de l'inférence sans réentraînement.

Mesures de performance et d'interprétabilité

Malgré un entraînement nécessitant significativement moins de calcul que des modèles comparables, Steerling-8B atteint des performances compétitives sur les benchmarks standards. Le modèle surpasse à la fois LLaMA2-7B et Deepseek-7B en moyenne globale malgré l'utilisation de moins de FLOPs, et reste dans la fourchette des modèles entraînés avec 2 à 10 fois plus de puissance de calcul.

Sur un ensemble de validation réservé, plus de 84 % de la contribution au niveau des tokens provient du module de concepts, indiquant que le modèle n'utilise pas seulement le résiduel pour faire des prédictions. Lorsque la voie résiduelle est supprimée, la performance sur plusieurs tâches LM Harness ne montre qu'un effet mineur, suggérant que le signal prédictif du modèle est largement acheminé via les concepts plutôt que par des canaux cachés.

Steerling peut détecter des concepts connus dans le texte avec une AUC (aire sous la courbe) de 96,2 %.

Ad

Fonctionnalités pratiques

Pour tout groupe de tokens de sortie généré par Steerling, les utilisateurs peuvent retracer ces tokens vers :

  • Contexte d'entrée : Les tokens spécifiques du prompt qui ont influencé la sortie
  • Concepts : Des sujets compréhensibles par l'humain dans les représentations du modèle (à la fois le ton comme « analytique, clinique » et le contenu comme « Méthodologies d'altération génétique »)
  • Données d'entraînement : Les sources de données d'entraînement qui ont conduit à la sortie, montrant la répartition entre des sources comme ArXiv, Wikipédia et FLAN

Le modèle permet un alignement au moment de l'inférence via le contrôle des concepts, remplaçant des milliers d'exemples d'entraînement de sécurité par un pilotage explicite au niveau conceptuel. Il permet également de supprimer ou d'amplifier des concepts spécifiques au moment de l'inférence sans réentraînement.

Artéfacts disponibles

  • Poids du modèle disponibles sur Hugging Face
  • Code compagnon sur GitHub
  • Package sur PyPI

📖 Lire la source complète : HN AI Agents

Ad

👀 See Also

AGENTS-COLLECTION : 129 Agents Claude Code Organisés dans un Dépôt Unique
Tools

AGENTS-COLLECTION : 129 Agents Claude Code Organisés dans un Dépôt Unique

Un développeur a compilé 129 agents Claude Code dans un seul dépôt au format ~/.claude/agents/, prêts à être installés avec une simple commande de copie. La collection comprend le système agency-agents complet avec 68 agents basés sur la personnalité couvrant plusieurs disciplines, ainsi que des agents supplémentaires pour les workflows d'équipe multi-agents.

OpenClawRadar
Contexte Lean : Le Plugin Claude Code Convertit des Documents Verbose en Fichiers Optimisés pour Agents
Tools

Contexte Lean : Le Plugin Claude Code Convertit des Documents Verbose en Fichiers Optimisés pour Agents

Un plugin Claude Code gratuit et open-source appelé Lean Context analyse la documentation du projet et supprime le contenu que les agents IA peuvent découvrir via la recherche par motif (grepping), ne conservant que les commandes non évidentes essentielles, les pièges et les particularités de l'environnement. Dans un test de projet e-commerce .NET, il a réduit 8 documents totalisant 1 263 lignes à seulement 23 lignes.

OpenClawRadar
HomeButler : Gestion de laboratoire domestique sans jeton pour les agents OpenClaw
Tools

HomeButler : Gestion de laboratoire domestique sans jeton pour les agents OpenClaw

HomeButler est un binaire Go unique qui permet aux agents OpenClaw de gérer l'infrastructure du homelab sans clés API ni jetons. Il s'exécute localement et maintient toutes les opérations sur votre réseau.

OpenClawRadar
Bifrost AI Gateway : Un outil open-source comble les lacunes de l'infrastructure IA
Tools

Bifrost AI Gateway : Un outil open-source comble les lacunes de l'infrastructure IA

Bifrost est une passerelle LLM open-source basée sur Go qui offre un basculement automatique entre les fournisseurs, des plafonds budgétaires qui rejettent les requêtes, une journalisation d'audit et des crochets pour l'évaluation. Les tests de performance montrent qu'elle est environ 50 fois plus rapide que LiteLLM à haut débit.

OpenClawRadar