SFM vs Transformers: 62% Precisão em Sequências Longas

Um desenvolvedor construiu a Máquina de Fluxo de Estado (SFM), uma arquitetura não-transformadora projetada para tarefas que exigem rastreamento de estado em sequências longas. O modelo roda em um único NPU Huawei Ascend 910 ProA e aborda as limitações dos transformadores em simular processos passo a passo quando as sequências excedem os comprimentos de treinamento.

Detalhes da Arquitetura

Em vez de cabeças de atenção, a SFM usa um banco de slots de memória explícitos (vetores pequenos de tamanho fixo). A cada token, um mecanismo de portão decide quais slots atualizar e como. O modelo lê dos slots, calcula uma atualização e grava de volta, funcionando como um pequeno arquivo de registros diferenciável. Essa abordagem está relacionada ao DeltaNet, Atenção Linear e modelos de espaço de estado (Mamba, RWKV), mas é mais explícita — os slots são diretamente endereçáveis e atualizados por meio de portões aprendidos, em vez de serem um estado recorrente implícito.

Configuração do Benchmark

O benchmark sintético de rastreamento de estado de programa envolve sequências como x = 42; x += 17; x -= 8; x *= 2; ... onde o modelo deve prever o valor final de x (inteiro 0–100, enquadrado como classificação de 101 classes).

Dados de treinamento: 10.000 programas com 10–27 operações, dificuldade alta (todas as operações: adicionar, subtrair, multiplicar, divisão inteira, módulo, definir), seed 42
Validação: 1.000 programas, mesma distribuição
Avaliação: teste em 1× (dentro da distribuição), 2×, 4×, 8×, 16× e 32× o comprimento do programa de treinamento

Resultados

Precisão de Correspondência Exata:

1× (10 ops): State Slots 99,9%, Transformer-Fair 100,0%, Transformer-Large 100,0%
2× (20 ops): State Slots 92,9%, Transformer-Fair 99,0%, Transformer-Large 99,5%
4× (40 ops): State Slots 62,0%, Transformer-Fair 1,9%, Transformer-Large 3,1%
8× (80 ops): State Slots 35,3%, Transformer-Fair 1,3%, Transformer-Large 1,0%
16× (160 ops): State Slots 5,1%, Transformer-Fair 0,9%, Transformer-Large 0,7%
32× (320 ops): State Slots 5,0%, Transformer-Fair 1,0%, Transformer-Large 0,8%

Razão de generalização (retenção de precisão):

State Slots: 4×/1× = 0,62×, 8×/1× = 0,35×
Transformer-Fair: 4×/1× = 0,02×, 8×/1× = 0,01×
Transformer-Large: 4×/1× = 0,03×, 8×/1× = 0,01×

Erro Absoluto Médio em comprimentos de extrapolação (escala 0–100):

4×: State Slots 14,03, Transformer-Fair 40,33, Transformer-Large 36,76
8×: State Slots 26,73, Transformer-Fair 41,71, Transformer-Large 41,19

Os transformadores estão essencialmente adivinhando aleatoriamente em 4× e além (EAM ~40 em uma escala 0–100 está próximo do erro esperado de um palpite aleatório uniforme), enquanto o State Slots continua fazendo previsões significativas.

Parâmetros do Modelo

State Slots usa 961K parâmetros, comparado com Transformer-Fair (443K) e Transformer-Large (2,2M).

📖 Leia a fonte completa: r/LocalLLaMA

Máquina de Fluxo de Estado: Arquitetura Não-Transformer Mantém 62% de Precisão em Sequências Longas, Enquanto Transformers Caem para 2%

Detalhes da Arquitetura

Configuração do Benchmark

Resultados

Parâmetros do Modelo

👀 See Also

Claude Opus 4.8 Lançado: Modo Rápido Mais Rápido e Barato, Fluxos de Trabalho Dinâmicos e Melhorias na Honestidade

Estratégia de pesos abertos da Mistral: avaliação de US$ 14 bi em soberania, não em benchmarks

Claude Code v2.1.101 adiciona integração de equipes, suporte TLS empresarial e corrige vazamentos de memória.

Teste de Raciocínio Espacial de LLM: Benchmark Sokoban Mostra ChatGPT, Qwen3.7-max, Gemini 3.5-thinking na Liderança