NLA превращает активации Gemma 3 в текст для любого токена

Anthropic опубликовала новую технику под названием Natural Language Autoencoders (NLA), которая переводит внутренние активации LLM в читаемый человеком текст для любого конкретного токена. Они выпустили два набора весов модели для Gemma 3 27b Instruct:

Auto Verbalizer (AV): LLM, переводящая активации целевой модели в текстовое объяснение того, о чем модель «думает» при генерации конкретного токена. Веса доступны по адресу kitft/nla-gemma3-27b-L41-av.
Activation Reconstructor (AR): Вспомогательная модель, восстанавливающая активации из текстового вывода AV, что подтверждает точность автоэнкодера. Веса по адресу kitft/nla-gemma3-27b-L41-ar.

Neuronpedia уже предоставляет интерактивное демо по адресу neuronpedia.org/gemma-3-27b-it/nla. Вы задаете вопрос Gemma 3, кликаете на любой токен в ответе, затем нажимаете «explain» и видите внутренние рассуждения модели для этого токена, переведенные на простой язык.

Это не про механизмы внимания или карты значимости — метод напрямую декодирует векторы скрытого состояния. Модель AV может работать вместе с вашей LLM и создавать объяснения для каждого токена, а модель AR гарантирует, что вывод AV является корректной реконструкцией. Обе модели выпущены с открытыми весами.

Для кого это: Для исследователей и инженеров, занимающихся механистической интерпретируемостью, или разработчиков, интересующихся, почему их агентская модель выбирает конкретные токены.

📖 Читать полный источник: r/LocalLLaMA

NLA преобразует внутренние активации Gemma 3 в читаемый текст для любого токена

👀 Смотрите также

Инструмент Snip позволяет визуально взаимодействовать с ИИ-агентами для программирования.

Четыре навыка ClawHub для работы с данными поиска в реальном времени в AI-агентах

OpenGauge: Инструмент с открытым исходным кодом для локального отслеживания затрат на LLM-агентов

В шаблонах рабочих процессов Claude шаблон передачи задач: разделение на два файла против сводки одного документа