NLA Transforme Gemma 3 : Activations en Texte Lisible

Anthropic a publié une nouvelle technique appelée Autoencodeurs en Langage Naturel (NLA) qui traduit les activations internes d'un LLM en texte lisible pour n'importe quel jeton spécifique. Ils ont publié deux ensembles de poids pour Gemma 3 27b Instruct :

Auto Verbalizer (AV) : Un LLM qui traduit les activations du modèle cible en une explication en langage naturel de ce que le modèle « pense » lorsqu'il génère un jeton particulier. Poids disponibles sur kitft/nla-gemma3-27b-L41-av.
Activation Reconstructor (AR) : Un modèle compagnon qui reconstruit les activations à partir de la sortie textuelle de l'AV, vérifiant ainsi la fidélité de l'autoencodeur. Poids sur kitft/nla-gemma3-27b-L41-ar.

Neuronpedia héberge déjà une démo interactive sur neuronpedia.org/gemma-3-27b-it/nla. Vous posez une question à Gemma 3, cliquez sur n'importe quel jeton dans la réponse, puis cliquez sur « expliquer » pour voir le raisonnement interne du modèle pour ce jeton traduit en texte simple.

Il ne s'agit pas de cartes d'attention ou de saillance — cela décode directement les vecteurs d'état caché. Le modèle AV peut s'exécuter aux côtés de votre LLM et produire des explications par jeton, tandis que le modèle AR garantit que la sortie de l'AV est une reconstruction valide. Les deux sont publiés sous poids ouverts.

À qui cela s'adresse : Aux chercheurs et ingénieurs travaillant sur l'interprétabilité mécaniste, ou aux développeurs curieux de savoir pourquoi leur modèle d'agent choisit certains jetons.

📖 Lire la source complète : r/LocalLLaMA

NLA transforme les activations internes de Gemma 3 en texte lisible pour tout token.

👀 See Also

Compétence de codage Karpathy réécrite pour le plan gratuit, débloque la discipline de codage Claude sans Pro

Le Plugin OpenClaw Connecte les Agents IA au Réseau Radio Meshtastic pour un Fonctionnement Hors Réseau

Simplification de l'hébergement OpenClaw : BestClaw conserve SSH et une fonctionnalité conviviale.

Goulot d'étranglement de la vérification du code Claude et solution par plugin d'automatisation du navigateur