NLA transforme les activations internes de Gemma 3 en texte lisible pour tout token.

Anthropic a publié une nouvelle technique appelée Autoencodeurs en Langage Naturel (NLA) qui traduit les activations internes d'un LLM en texte lisible pour n'importe quel jeton spécifique. Ils ont publié deux ensembles de poids pour Gemma 3 27b Instruct :
- Auto Verbalizer (AV) : Un LLM qui traduit les activations du modèle cible en une explication en langage naturel de ce que le modèle « pense » lorsqu'il génère un jeton particulier. Poids disponibles sur kitft/nla-gemma3-27b-L41-av.
- Activation Reconstructor (AR) : Un modèle compagnon qui reconstruit les activations à partir de la sortie textuelle de l'AV, vérifiant ainsi la fidélité de l'autoencodeur. Poids sur kitft/nla-gemma3-27b-L41-ar.
Neuronpedia héberge déjà une démo interactive sur neuronpedia.org/gemma-3-27b-it/nla. Vous posez une question à Gemma 3, cliquez sur n'importe quel jeton dans la réponse, puis cliquez sur « expliquer » pour voir le raisonnement interne du modèle pour ce jeton traduit en texte simple.
Il ne s'agit pas de cartes d'attention ou de saillance — cela décode directement les vecteurs d'état caché. Le modèle AV peut s'exécuter aux côtés de votre LLM et produire des explications par jeton, tandis que le modèle AR garantit que la sortie de l'AV est une reconstruction valide. Les deux sont publiés sous poids ouverts.
À qui cela s'adresse : Aux chercheurs et ingénieurs travaillant sur l'interprétabilité mécaniste, ou aux développeurs curieux de savoir pourquoi leur modèle d'agent choisit certains jetons.
📖 Lire la source complète : r/LocalLLaMA
👀 See Also

SpecLock : Serveur MCP pour l'application de contraintes de codage IA
SpecLock est un serveur MCP open source qui mémorise les contraintes du projet entre les sessions et empêche les agents d'IA de codage de les violer. Claude l'a testé indépendamment avec 100 tests adversariaux, obtenant un score de 100/100 avec zéro faux positif et 15,7 ms par vérification.

Plugin OpenClaw Context Meter affiche le pourcentage d'utilisation du jeton Telegram
Un nouveau plugin OpenClaw affiche le pourcentage d'utilisation des tokens après chaque réponse du bot Telegram, montrant des valeurs comme '45k / 200k (22%)' et détectant les événements de compaction. Le plugin évite les problèmes de mémoire insuffisante en codant en dur les fenêtres de contexte au lieu d'utiliser execSync.

Comment j'ai créé une compétence pour déployer des agents OpenClaw sur des applications web - Un regard dans les coulisses
Découvrez une nouvelle compétence innovante développée pour les agents OpenClaw qui facilite leur déploiement sur des applications web. Apprenez-en plus sur ses fonctionnalités, ses avantages et comment elle transforme les processus de production.

Compétence Moteur de Jeu d'Aventure Textuelle pour Claude Desktop
Un moteur de jeu d'aventure textuelle fonctionne entièrement dans Claude Desktop en tant que compétence, sans serveurs, applications ou code à exécuter. Il inclut des mécaniques de jeu de rôle complètes, un rendu de dés 3D, 19 modules d'extension et des fichiers de sauvegarde portables.