State Flow Machine : 62% de précision contre 2% pour les transformateurs

Un développeur a construit State Flow Machine (SFM), une architecture non-transformateur conçue pour les tâches nécessitant un suivi d'état sur de longues séquences. Le modèle fonctionne sur un seul NPU Huawei Ascend 910 ProA et aborde les limites des transformateurs pour simuler des processus étape par étape lorsque les séquences dépassent les longueurs d'entraînement.

Détails de l'architecture

Au lieu de têtes d'attention, SFM utilise une banque d'emplacements de mémoire explicites (petits vecteurs de taille fixe). À chaque token, un mécanisme de porte décide quels emplacements mettre à jour et comment. Le modèle lit depuis les emplacements, calcule une mise à jour et réécrit, fonctionnant comme un petit fichier de registres différentiable. Cette approche est liée à DeltaNet, Linear Attention et aux modèles d'état (Mamba, RWKV) mais plus explicite — les emplacements sont directement adressables et mis à jour via des portes apprises plutôt que d'être un état récurrent implicite.

Configuration du benchmark

Le benchmark synthétique de suivi d'état de programme implique des séquences comme x = 42; x += 17; x -= 8; x *= 2; ... où le modèle doit prédire la valeur finale de x (entier 0–100, formulé comme une classification à 101 classes).

Données d'entraînement : 10 000 programmes avec 10–27 opérations, difficulté élevée (toutes les opérations : addition, soustraction, multiplication, division entière, modulo, affectation), graine 42
Validation : 1 000 programmes, même distribution
Évaluation : test à 1× (en distribution), 2×, 4×, 8×, 16× et 32× la longueur des programmes d'entraînement

Résultats

Précision de correspondance exacte :

1× (10 opérations) : State Slots 99,9 %, Transformer-Fair 100,0 %, Transformer-Large 100,0 %
2× (20 opérations) : State Slots 92,9 %, Transformer-Fair 99,0 %, Transformer-Large 99,5 %
4× (40 opérations) : State Slots 62,0 %, Transformer-Fair 1,9 %, Transformer-Large 3,1 %
8× (80 opérations) : State Slots 35,3 %, Transformer-Fair 1,3 %, Transformer-Large 1,0 %
16× (160 opérations) : State Slots 5,1 %, Transformer-Fair 0,9 %, Transformer-Large 0,7 %
32× (320 opérations) : State Slots 5,0 %, Transformer-Fair 1,0 %, Transformer-Large 0,8 %

Taux de généralisation (rétention de précision) :

State Slots : 4×/1× = 0,62×, 8×/1× = 0,35×
Transformer-Fair : 4×/1× = 0,02×, 8×/1× = 0,01×
Transformer-Large : 4×/1× = 0,03×, 8×/1× = 0,01×

Erreur absolue moyenne aux longueurs d'extrapolation (échelle 0–100) :

4× : State Slots 14,03, Transformer-Fair 40,33, Transformer-Large 36,76
8× : State Slots 26,73, Transformer-Fair 41,71, Transformer-Large 41,19

Les transformateurs devinent essentiellement au hasard à 4× et au-delà (une erreur absolue moyenne d'environ 40 sur une échelle 0–100 est proche de l'erreur attendue d'une supposition aléatoire uniforme), tandis que State Slots continue de faire des prédictions significatives.

Paramètres du modèle

State Slots utilise 961 000 paramètres, comparé à Transformer-Fair (443 000) et Transformer-Large (2,2 millions).

📖 Read the full source: r/LocalLLaMA

Machine à flux d'état : l'architecture non-transformeuse maintient 62 % de précision sur les séquences longues, là où les transformateurs tombent à 2 %.

Détails de l'architecture

Configuration du benchmark

Résultats

Paramètres du modèle

👀 See Also

Claude Code retiré du plan Pro d'Anthropic, désormais uniquement disponible sur les plans Max

Le modèle IA Xiaomi MiMo-V2-Pro disponible gratuitement sur OpenRouter pendant 7 jours

Claude Code v2.1.73 : Surcharges de modèles, corrections de stabilité et améliorations des performances

Les modèles à poids ouvert de moins de 100 Go ne peuvent pas surpasser Claude Haiku sur les benchmarks de codage.