NLA Autoencoder: Gemma 3 Aktivierungen in Text umwandeln

Anthropic hat eine neue Technik namens Natural Language Autoencoders (NLA) veröffentlicht, die die internen Aktivierungen eines LLMs für jedes beliebige Token in menschenlesbaren Text übersetzt. Sie haben zwei Modellgewichtsätze für Gemma 3 27b Instruct veröffentlicht:

Auto Verbalizer (AV): Ein LLM, das die Aktivierungen des Zielmodells in eine natürlichsprachliche Erklärung dessen übersetzt, was das Modell „denkt", wenn es ein bestimmtes Token generiert. Gewichte verfügbar unter kitft/nla-gemma3-27b-L41-av.
Activation Reconstructor (AR): Ein Begleitmodell, das Aktivierungen aus der Textausgabe des AV rekonstruiert und so die Treue des Autoencoders überprüft. Gewichte unter kitft/nla-gemma3-27b-L41-ar.

Neuronpedia hostet bereits eine interaktive Demo unter neuronpedia.org/gemma-3-27b-it/nla. Sie stellen Gemma 3 eine Frage, klicken auf ein beliebiges Token in der Antwort und dann auf „Erklären", um die internen Gedankengänge des Modells für dieses Token in Klartext zu sehen.

Es geht hier nicht um Aufmerksamkeit oder Salienzkarten – es dekodiert direkt die verborgenen Zustandsvektoren. Das AV-Modell kann parallel zu Ihrem LLM laufen und Erklärungen pro Token liefern, während das AR-Modell sicherstellt, dass die AV-Ausgabe eine gültige Rekonstruktion ist. Beide sind unter offenen Gewichten veröffentlicht.

Für wen es gedacht ist: Forscher und Ingenieure, die mechanistische Interpretierbarkeit betreiben, oder Entwickler, die neugierig sind, warum ihr Agentenmodell bestimmte Token auswählt.

📖 Vollständige Quelle lesen: r/LocalLLaMA

NLA wandelt die internen Aktivierungen von Gemma 3 in lesbaren Text für jedes Token um

👀 Siehe auch

UI und Server für Anthropics Natural Language Autoencoder auf llama.cpp

Steerling-8B: Ein interpretierbares Sprachmodell mit Token-Level-Attribution

Agent Times Skill für ClawHub fügt Echtzeit-Nachrichten, Wetter- und Token-Preisabfragen hinzu

Claude-context-lint-Tool überprüft den Token-Overhead in Claude-Code-Projekten