Steerling-8B: Um Modelo de Linguagem Interpretável com Atribuição em Nível de Token

Arquitetura e Capacidades do Modelo
O Steerling-8B é construído sobre uma estrutura de modelo de difusão discreta causal que permite direcionar a geração através de sequências de múltiplos tokens, em vez de apenas no nível do próximo token. O design principal decompõe os embeddings do modelo em três caminhos explícitos: aproximadamente 33.000 conceitos "conhecidos" supervisionados, aproximadamente 100.000 conceitos "descobertos" que o modelo aprende por conta própria, e um componente residual que captura as informações restantes.
O modelo utiliza funções de perda de treinamento que garantem o roteamento do sinal através dos conceitos sem comprometer o desempenho fundamental. Os conceitos alimentam os logits através de um caminho linear, permitindo que cada previsão se decomponha exatamente em contribuições por conceito. Essas contribuições podem ser editadas no momento da inferência sem necessidade de retreinamento.
Métricas de Desempenho e Interpretabilidade
Apesar de ter sido treinado com significativamente menos recursos computacionais do que modelos comparáveis, o Steerling-8B alcança desempenho competitivo em benchmarks padrão. O modelo supera tanto o LLaMA2-7B quanto o Deepseek-7B na média geral, apesar de usar menos FLOPs, e permanece dentro do alcance de modelos treinados com 2 a 10 vezes mais recursos computacionais.
Em um conjunto de validação reservado, mais de 84% da contribuição em nível de token vem do módulo de conceitos, indicando que o modelo não está apenas usando o componente residual para fazer previsões. Quando o caminho residual é removido, o desempenho em várias tarefas do LM Harness mostra apenas um pequeno efeito, sugerindo que o sinal preditivo do modelo é em grande parte roteado através dos conceitos, em vez de canais ocultos.
O Steerling pode detectar conceitos conhecidos em texto com 96,2% de AU (Área Sob a Curva).
Recursos Práticos
Para qualquer grupo de tokens de saída que o Steerling gera, os usuários podem rastrear esses tokens até:
- Contexto de entrada: Os tokens específicos do prompt que influenciaram a saída
- Conceitos: Tópicos compreensíveis para humanos nas representações do modelo (tanto tom como "analítico, clínico" quanto conteúdo como "Metodologias de alteração genética")
- Dados de treinamento: As fontes de dados de treinamento que impulsionaram a saída, mostrando distribuição entre fontes como ArXiv, Wikipedia e FLAN
O modelo permite alinhamento em tempo de inferência através do controle de conceitos, substituindo milhares de exemplos de treinamento de segurança por direcionamento explícito em nível de conceito. Também permite suprimir ou amplificar conceitos específicos no momento da inferência sem necessidade de retreinamento.
Artefatos Disponíveis
- Pesos do modelo disponíveis no Hugging Face
- Código complementar no GitHub
- Pacote no PyPI
📖 Leia a fonte completa: HN AI Agents
👀 See Also

Nanocode: Treinando agentes de codificação semelhantes ao Claude com JAX em TPUs
Nanocode é uma biblioteca JAX para treinar agentes de codificação semelhantes ao Claude de ponta a ponta, usando Constitutional AI e otimização TPU. O modelo de 1,3B de parâmetros pode ser treinado em ~9 horas por US$ 200 em TPU v6e-8.

Biblioteca de Registro de Código Aberto Artigo 12 para Conformidade com a Lei de IA da UE
Uma biblioteca TypeScript gratuita e de código aberto para aplicativos Node.js que utilizam o Vercel AI SDK, implementando os requisitos de registro do Artigo 12 com logs JSONL somente de acréscimo, encadeamento de hashes SHA-256 para detecção de adulteração e aplicação de retenção de 180 dias.

NERF Plataforma de Engenharia de Segurança de IA de Código Aberto Entra em Beta Público
NERF é uma plataforma de engenharia de segurança de IA de código aberto e agente de codificação autônomo que abrange técnicas de segurança ofensiva, defensiva e de privacidade em 117 domínios. Ele apresenta 9 modos de operação auto-detectados, suporte a 26 provedores de LLM e automação de conformidade para 39 frameworks.

PromptForest: Detecção Local-Primeira de Injeção de Prompt com Incerteza
PromptForest é uma biblioteca leve e local-first que detecta injeções de prompt e jailbreaks, classificando-os enquanto avalia a certeza, tudo sem aumentar a latência média das requisições.