NLA преобразует внутренние активации Gemma 3 в читаемый текст для любого токена

Anthropic опубликовала новую технику под названием Natural Language Autoencoders (NLA), которая переводит внутренние активации LLM в читаемый человеком текст для любого конкретного токена. Они выпустили два набора весов модели для Gemma 3 27b Instruct:
- Auto Verbalizer (AV): LLM, переводящая активации целевой модели в текстовое объяснение того, о чем модель «думает» при генерации конкретного токена. Веса доступны по адресу kitft/nla-gemma3-27b-L41-av.
- Activation Reconstructor (AR): Вспомогательная модель, восстанавливающая активации из текстового вывода AV, что подтверждает точность автоэнкодера. Веса по адресу kitft/nla-gemma3-27b-L41-ar.
Neuronpedia уже предоставляет интерактивное демо по адресу neuronpedia.org/gemma-3-27b-it/nla. Вы задаете вопрос Gemma 3, кликаете на любой токен в ответе, затем нажимаете «explain» и видите внутренние рассуждения модели для этого токена, переведенные на простой язык.
Это не про механизмы внимания или карты значимости — метод напрямую декодирует векторы скрытого состояния. Модель AV может работать вместе с вашей LLM и создавать объяснения для каждого токена, а модель AR гарантирует, что вывод AV является корректной реконструкцией. Обе модели выпущены с открытыми весами.
Для кого это: Для исследователей и инженеров, занимающихся механистической интерпретируемостью, или разработчиков, интересующихся, почему их агентская модель выбирает конкретные токены.
📖 Читать полный источник: r/LocalLLaMA
👀 Смотрите также

Инструмент Snip позволяет визуально взаимодействовать с ИИ-агентами для программирования.
Snip — это бесплатный инструмент, который позволяет разработчикам делать скриншоты, добавлять аннотации и рисовать, чтобы визуально показывать ИИ-агентам, что они имеют в виду, в то время как агенты могут генерировать диаграммы или загружать изображения напрямую через CLI или MCP. В настоящее время работает на Mac с процессорами Apple Silicon, поддерживает диаграммы Mermaid, а поддержка HTML находится в разработке.

Четыре навыка ClawHub для работы с данными поиска в реальном времени в AI-агентах
Четыре навыка ClawHub предоставляют структурированные возможности поиска для ИИ-агентов: Google (веб, новости, изображения, карты), Amazon (поиск товаров на 12 торговых площадках), Walmart (поиск товаров с фильтрами доставки) и YouTube (поиск видео с транскриптами). Установка через команды clawhub install с одним API-ключом.

OpenGauge: Инструмент с открытым исходным кодом для локального отслеживания затрат на LLM-агентов
OpenGauge — это инструмент с открытым исходным кодом, который отслеживает вызовы API от LLM-агентов, таких как OpenClaw, записывая использование токенов, затраты и задержки в локальную базу данных SQLite. Он включает режим прокси для автоматического логирования, подробную статистику по затратам и функционал автоматического выключателя для предотвращения бесконечных циклов.

В шаблонах рабочих процессов Claude шаблон передачи задач: разделение на два файла против сводки одного документа
Длительные сессии с Claude страдают от потери контекста. Handoffs сжимают важное и начинают заново. Два подхода: навык handoff Мэтта Покока в одном документе и разделение на два файла с постоянным повествованием и временным промптом.