NLA преобразует внутренние активации Gemma 3 в читаемый текст для любого токена

Anthropic опубликовала новую технику под названием Natural Language Autoencoders (NLA), которая переводит внутренние активации LLM в читаемый человеком текст для любого конкретного токена. Они выпустили два набора весов модели для Gemma 3 27b Instruct:
- Auto Verbalizer (AV): LLM, переводящая активации целевой модели в текстовое объяснение того, о чем модель «думает» при генерации конкретного токена. Веса доступны по адресу kitft/nla-gemma3-27b-L41-av.
- Activation Reconstructor (AR): Вспомогательная модель, восстанавливающая активации из текстового вывода AV, что подтверждает точность автоэнкодера. Веса по адресу kitft/nla-gemma3-27b-L41-ar.
Neuronpedia уже предоставляет интерактивное демо по адресу neuronpedia.org/gemma-3-27b-it/nla. Вы задаете вопрос Gemma 3, кликаете на любой токен в ответе, затем нажимаете «explain» и видите внутренние рассуждения модели для этого токена, переведенные на простой язык.
Это не про механизмы внимания или карты значимости — метод напрямую декодирует векторы скрытого состояния. Модель AV может работать вместе с вашей LLM и создавать объяснения для каждого токена, а модель AR гарантирует, что вывод AV является корректной реконструкцией. Обе модели выпущены с открытыми весами.
Для кого это: Для исследователей и инженеров, занимающихся механистической интерпретируемостью, или разработчиков, интересующихся, почему их агентская модель выбирает конкретные токены.
📖 Читать полный источник: r/LocalLLaMA
👀 Смотрите также

Skales Desktop AI Agent, созданный с использованием Claude, с маскотом в стиле Клиппи
Skales — это настольный ИИ-агент, работающий локально на Windows и macOS, использующий Claude через API OpenRouter/Anthropic для рассуждений и выполнения инструментов. Включает плавающий талисман Desktop Buddy со скином в виде скрепки и может выполнять команды, такие как отправка писем, управление файлами, просмотр веб-страниц и управление календарями.

Рассуждение Охрана: Обнаружение циклов на уровне прокси для локального вывода LLM
Прокси-уровень защиты, который обнаруживает и восстанавливается после циклов рассуждения LLM с помощью детерминированных проверок потока — ограничения токенов, n-граммные повторы и отпечатки предложений — без изменения модели.

Приложение QCAI предоставляет мобильный центр управления для экосистемы OpenClaw.
Академическая исследовательская команда выпустила приложение QCAI для iOS и Android, созданное с помощью ИИ-разработки, предлагающее мониторинг через панель управления, чат шлюза и безопасный VPN-доступ к инструментам OpenClaw.

Клод Банан: Плагин Claude Code для генерации изображений с учетом дизайн-системы
Claude Banana — это плагин Claude Code для генерации изображений с использованием API Google Gemini. Он создаёт контекстно-зависимые промпты, анализируя конфигурации Tailwind, CSS-переменные, дизайн-токены и существующие ресурсы, чтобы понять визуальный стиль проекта.