NLA wandelt die internen Aktivierungen von Gemma 3 in lesbaren Text für jedes Token um

Anthropic hat eine neue Technik namens Natural Language Autoencoders (NLA) veröffentlicht, die die internen Aktivierungen eines LLMs für jedes beliebige Token in menschenlesbaren Text übersetzt. Sie haben zwei Modellgewichtsätze für Gemma 3 27b Instruct veröffentlicht:
- Auto Verbalizer (AV): Ein LLM, das die Aktivierungen des Zielmodells in eine natürlichsprachliche Erklärung dessen übersetzt, was das Modell „denkt", wenn es ein bestimmtes Token generiert. Gewichte verfügbar unter kitft/nla-gemma3-27b-L41-av.
- Activation Reconstructor (AR): Ein Begleitmodell, das Aktivierungen aus der Textausgabe des AV rekonstruiert und so die Treue des Autoencoders überprüft. Gewichte unter kitft/nla-gemma3-27b-L41-ar.
Neuronpedia hostet bereits eine interaktive Demo unter neuronpedia.org/gemma-3-27b-it/nla. Sie stellen Gemma 3 eine Frage, klicken auf ein beliebiges Token in der Antwort und dann auf „Erklären", um die internen Gedankengänge des Modells für dieses Token in Klartext zu sehen.
Es geht hier nicht um Aufmerksamkeit oder Salienzkarten – es dekodiert direkt die verborgenen Zustandsvektoren. Das AV-Modell kann parallel zu Ihrem LLM laufen und Erklärungen pro Token liefern, während das AR-Modell sicherstellt, dass die AV-Ausgabe eine gültige Rekonstruktion ist. Beide sind unter offenen Gewichten veröffentlicht.
Für wen es gedacht ist: Forscher und Ingenieure, die mechanistische Interpretierbarkeit betreiben, oder Entwickler, die neugierig sind, warum ihr Agentenmodell bestimmte Token auswählt.
📖 Vollständige Quelle lesen: r/LocalLLaMA
👀 Siehe auch
UI und Server für Anthropics Natural Language Autoencoder auf llama.cpp
Ein benutzerdefinierter llama.cpp-Server und eine Mikupad-Benutzeroberfläche für Anthropics Open-Weight Natural Language Autoencoder, die Aktivierungsextraktion, Erklärung, Rekonstruktion und Steuerung durch Bearbeitung von Erklärungen unterstützen.

Steerling-8B: Ein interpretierbares Sprachmodell mit Token-Level-Attribution
Guide Labs veröffentlichte Steerling-8B, ein Sprachmodell mit 8 Milliarden Parametern, das auf 1,35 Billionen Tokens trainiert wurde und jeden generierten Token auf Eingabekontext, menschenverständliche Konzepte und Trainingsdatenquellen zurückführen kann. Das Modell erreicht eine wettbewerbsfähige Leistung mit Modellen, die auf 2-7× mehr Daten trainiert wurden.

Agent Times Skill für ClawHub fügt Echtzeit-Nachrichten, Wetter- und Token-Preisabfragen hinzu
Eine neue ClawHub-Fähigkeit namens Agent Times ermöglicht es KI-Agenten, Echtzeit-Anfragen zu Nachrichten, Wetter und Kryptowährungspreisen zu beantworten. Die Installation erfolgt über npx clawhub install agenttimes, und sie bietet Zugriff auf über 228.000 Artikel aus 3.576 Feeds mit Stimmungsbewertung und Entitätsextraktion.

Claude-context-lint-Tool überprüft den Token-Overhead in Claude-Code-Projekten
Ein neues Tool namens claude-context-lint scannt Claude-Code-Projekte, um anzuzeigen, wie viel des Kontextfensters durch CLAUDE.md-Dateien, Skills, MCP-Server und System-Prompts vor der Benutzereingabe verbraucht wird. Das Tool bietet spezifische Empfehlungen zur Reduzierung der Token-Nutzung.