NLA преобразует внутренние активации Gemma 3 в читаемый текст для любого токена

✍️ OpenClawRadar📅 Опубликовано: 8 мая 2026 г.🔗 Source
NLA преобразует внутренние активации Gemma 3 в читаемый текст для любого токена
Ad

Anthropic опубликовала новую технику под названием Natural Language Autoencoders (NLA), которая переводит внутренние активации LLM в читаемый человеком текст для любого конкретного токена. Они выпустили два набора весов модели для Gemma 3 27b Instruct:

  • Auto Verbalizer (AV): LLM, переводящая активации целевой модели в текстовое объяснение того, о чем модель «думает» при генерации конкретного токена. Веса доступны по адресу kitft/nla-gemma3-27b-L41-av.
  • Activation Reconstructor (AR): Вспомогательная модель, восстанавливающая активации из текстового вывода AV, что подтверждает точность автоэнкодера. Веса по адресу kitft/nla-gemma3-27b-L41-ar.

Neuronpedia уже предоставляет интерактивное демо по адресу neuronpedia.org/gemma-3-27b-it/nla. Вы задаете вопрос Gemma 3, кликаете на любой токен в ответе, затем нажимаете «explain» и видите внутренние рассуждения модели для этого токена, переведенные на простой язык.

Ad

Это не про механизмы внимания или карты значимости — метод напрямую декодирует векторы скрытого состояния. Модель AV может работать вместе с вашей LLM и создавать объяснения для каждого токена, а модель AR гарантирует, что вывод AV является корректной реконструкцией. Обе модели выпущены с открытыми весами.

Для кого это: Для исследователей и инженеров, занимающихся механистической интерпретируемостью, или разработчиков, интересующихся, почему их агентская модель выбирает конкретные токены.

📖 Читать полный источник: r/LocalLLaMA

Ad

👀 Смотрите также

Skales Desktop AI Agent, созданный с использованием Claude, с маскотом в стиле Клиппи
Инструменты

Skales Desktop AI Agent, созданный с использованием Claude, с маскотом в стиле Клиппи

Skales — это настольный ИИ-агент, работающий локально на Windows и macOS, использующий Claude через API OpenRouter/Anthropic для рассуждений и выполнения инструментов. Включает плавающий талисман Desktop Buddy со скином в виде скрепки и может выполнять команды, такие как отправка писем, управление файлами, просмотр веб-страниц и управление календарями.

OpenClawRadar
Рассуждение Охрана: Обнаружение циклов на уровне прокси для локального вывода LLM
Инструменты

Рассуждение Охрана: Обнаружение циклов на уровне прокси для локального вывода LLM

Прокси-уровень защиты, который обнаруживает и восстанавливается после циклов рассуждения LLM с помощью детерминированных проверок потока — ограничения токенов, n-граммные повторы и отпечатки предложений — без изменения модели.

OpenClawRadar
Приложение QCAI предоставляет мобильный центр управления для экосистемы OpenClaw.
Инструменты

Приложение QCAI предоставляет мобильный центр управления для экосистемы OpenClaw.

Академическая исследовательская команда выпустила приложение QCAI для iOS и Android, созданное с помощью ИИ-разработки, предлагающее мониторинг через панель управления, чат шлюза и безопасный VPN-доступ к инструментам OpenClaw.

OpenClawRadar
Клод Банан: Плагин Claude Code для генерации изображений с учетом дизайн-системы
Инструменты

Клод Банан: Плагин Claude Code для генерации изображений с учетом дизайн-системы

Claude Banana — это плагин Claude Code для генерации изображений с использованием API Google Gemini. Он создаёт контекстно-зависимые промпты, анализируя конфигурации Tailwind, CSS-переменные, дизайн-токены и существующие ресурсы, чтобы понять визуальный стиль проекта.

OpenClawRadar