NLA transforma as ativações internas do Gemma 3 em texto legível para qualquer token

✍️ OpenClawRadar📅 Publicado: May 8, 2026🔗 Source

A Anthropic publicou uma nova técnica chamada Natural Language Autoencoders (NLA), que traduz as ativações internas de um LLM em texto legível para humanos para qualquer token específico. Eles lançaram dois conjuntos de pesos de modelo para o Gemma 3 27b Instruct:

Auto Verbalizer (AV): Um LLM que traduz as ativações do modelo alvo em uma explicação em linguagem natural do que o modelo está "pensando" ao gerar um token específico. Pesos disponíveis em kitft/nla-gemma3-27b-L41-av.
Activation Reconstructor (AR): Um modelo complementar que reconstrói as ativações a partir da saída de texto do AV, verificando se o autoencoder é fiel. Pesos em kitft/nla-gemma3-27b-L41-ar.

O Neuronpedia já hospeda uma demo interativa em neuronpedia.org/gemma-3-27b-it/nla. Você faz uma pergunta ao Gemma 3, clica em qualquer token na resposta e depois clica em "explain" para ver o raciocínio interno do modelo para aquele token traduzido em texto simples.

Isso não é sobre mapas de atenção ou saliência — ele decodifica diretamente os vetores de estado oculto. O modelo AV pode rodar junto com seu LLM e produzir explicações por token, enquanto o modelo AR garante que a saída do AV seja uma reconstrução válida. Ambos são lançados sob pesos abertos.

Para quem é: Pesquisadores e engenheiros que trabalham com interpretabilidade mecanicista, ou desenvolvedores curiosos sobre por que o modelo do seu agente escolhe tokens específicos.

📖 Leia a fonte completa: r/LocalLLaMA

👀 See Also

Tools

Servidor MCP Rastreia Bugs Conhecidos em Ferramentas de Desenvolvimento para Melhorar Recomendações de LLM

nanmesh-mcp é um servidor MCP que rastreia problemas reais em 57 ferramentas de desenvolvimento através de GitHub Issues, Stack Overflow e Reddit, fornecendo dados de bugs atuais para LLMs antes de fazer recomendações de bibliotecas.

Apr 4, 2026, 02:45 PM UTC

OpenClawRadar

Tools

sqlite-utils 4.0rc2: Escrito por Claude Fable, $149,25, Corrige Bug de Perda de Dados

Simon Willison lançou sqlite-utils 4.0rc2, majoritariamente escrito por Claude Fable por $149,25. Fable encontrou um bug de perda de dados em delete_where() e ajudou a reescrever o tratamento de transações.

Jul 5, 2026, 12:17 PM UTC

OpenClawRadar

Tools

Attesor: Engenharia Reversa com IA do Rosetta 2 para Máquina Virtual Linux

Attesor é um projeto do GitHub que utiliza IA para engenharia reversa da tecnologia de tradução binária Rosetta 2 da Apple, visando documentar sua arquitetura e potencialmente habilitar a tradução de x86_64 para ARM64 em máquinas virtuais Linux.

Feb 24, 2026, 05:45 AM UTC

OpenClawRadar

Tools

Temporal-MCP: Consciência de Relógio de Parede para LLMs com Suporte a OAuth

Temporal-MCP é um servidor MCP mínimo que fornece consciência do relógio de parede para LLMs, abordando modos de falha relacionados ao tempo, como saudações incorretas e contexto desatualizado. Ele oferece duas ferramentas (temporal_tick e temporal_peek) que retornam tempo decorrido, detecção de virada de dia e sinalizador de nova conversa.

May 14, 2026, 12:19 AM UTC

OpenClawRadar