NLA transforma as ativações internas do Gemma 3 em texto legível para qualquer token

✍️ OpenClawRadar📅 Publicado: May 8, 2026🔗 Source
NLA transforma as ativações internas do Gemma 3 em texto legível para qualquer token
Ad

A Anthropic publicou uma nova técnica chamada Natural Language Autoencoders (NLA), que traduz as ativações internas de um LLM em texto legível para humanos para qualquer token específico. Eles lançaram dois conjuntos de pesos de modelo para o Gemma 3 27b Instruct:

  • Auto Verbalizer (AV): Um LLM que traduz as ativações do modelo alvo em uma explicação em linguagem natural do que o modelo está "pensando" ao gerar um token específico. Pesos disponíveis em kitft/nla-gemma3-27b-L41-av.
  • Activation Reconstructor (AR): Um modelo complementar que reconstrói as ativações a partir da saída de texto do AV, verificando se o autoencoder é fiel. Pesos em kitft/nla-gemma3-27b-L41-ar.

O Neuronpedia já hospeda uma demo interativa em neuronpedia.org/gemma-3-27b-it/nla. Você faz uma pergunta ao Gemma 3, clica em qualquer token na resposta e depois clica em "explain" para ver o raciocínio interno do modelo para aquele token traduzido em texto simples.

Ad

Isso não é sobre mapas de atenção ou saliência — ele decodifica diretamente os vetores de estado oculto. O modelo AV pode rodar junto com seu LLM e produzir explicações por token, enquanto o modelo AR garante que a saída do AV seja uma reconstrução válida. Ambos são lançados sob pesos abertos.

Para quem é: Pesquisadores e engenheiros que trabalham com interpretabilidade mecanicista, ou desenvolvedores curiosos sobre por que o modelo do seu agente escolhe tokens específicos.

📖 Leia a fonte completa: r/LocalLLaMA

Ad

👀 See Also