Steerling-8B: Modelo de Linguagem Interpretável com Atribuição de Token

Arquitetura e Capacidades do Modelo

O Steerling-8B é construído sobre uma estrutura de modelo de difusão discreta causal que permite direcionar a geração através de sequências de múltiplos tokens, em vez de apenas no nível do próximo token. O design principal decompõe os embeddings do modelo em três caminhos explícitos: aproximadamente 33.000 conceitos "conhecidos" supervisionados, aproximadamente 100.000 conceitos "descobertos" que o modelo aprende por conta própria, e um componente residual que captura as informações restantes.

O modelo utiliza funções de perda de treinamento que garantem o roteamento do sinal através dos conceitos sem comprometer o desempenho fundamental. Os conceitos alimentam os logits através de um caminho linear, permitindo que cada previsão se decomponha exatamente em contribuições por conceito. Essas contribuições podem ser editadas no momento da inferência sem necessidade de retreinamento.

Métricas de Desempenho e Interpretabilidade

Apesar de ter sido treinado com significativamente menos recursos computacionais do que modelos comparáveis, o Steerling-8B alcança desempenho competitivo em benchmarks padrão. O modelo supera tanto o LLaMA2-7B quanto o Deepseek-7B na média geral, apesar de usar menos FLOPs, e permanece dentro do alcance de modelos treinados com 2 a 10 vezes mais recursos computacionais.

Em um conjunto de validação reservado, mais de 84% da contribuição em nível de token vem do módulo de conceitos, indicando que o modelo não está apenas usando o componente residual para fazer previsões. Quando o caminho residual é removido, o desempenho em várias tarefas do LM Harness mostra apenas um pequeno efeito, sugerindo que o sinal preditivo do modelo é em grande parte roteado através dos conceitos, em vez de canais ocultos.

O Steerling pode detectar conceitos conhecidos em texto com 96,2% de AU (Área Sob a Curva).

Recursos Práticos

Para qualquer grupo de tokens de saída que o Steerling gera, os usuários podem rastrear esses tokens até:

Contexto de entrada: Os tokens específicos do prompt que influenciaram a saída
Conceitos: Tópicos compreensíveis para humanos nas representações do modelo (tanto tom como "analítico, clínico" quanto conteúdo como "Metodologias de alteração genética")
Dados de treinamento: As fontes de dados de treinamento que impulsionaram a saída, mostrando distribuição entre fontes como ArXiv, Wikipedia e FLAN

O modelo permite alinhamento em tempo de inferência através do controle de conceitos, substituindo milhares de exemplos de treinamento de segurança por direcionamento explícito em nível de conceito. Também permite suprimir ou amplificar conceitos específicos no momento da inferência sem necessidade de retreinamento.

Artefatos Disponíveis

Pesos do modelo disponíveis no Hugging Face
Código complementar no GitHub
Pacote no PyPI

📖 Leia a fonte completa: HN AI Agents

Steerling-8B: Um Modelo de Linguagem Interpretável com Atribuição em Nível de Token

Arquitetura e Capacidades do Modelo

Métricas de Desempenho e Interpretabilidade

Recursos Práticos

Artefatos Disponíveis

👀 See Also

LLMSpend: Rastreador de custos de código aberto para SDKs da Anthropic e OpenAI

Kios: um leitor iOS para bibliotecas Kobo/Calibre auto-hospedadas com sincronização de progresso

AgentPVP: Uma arena competitiva LLM primeiro-agente com ELO, rivalidades e sandbox de injeção de prompt

pxpipe: Reduza em 60% o uso de tokens do Claude Code ao renderizar contexto como imagens