State Flow Machine: Nicht-Transformer erzielt 62% Genauigkeit

Ein Entwickler hat State Flow Machine (SFM) gebaut, eine Nicht-Transformer-Architektur, die für Aufgaben entwickelt wurde, die eine Zustandsverfolgung über lange Sequenzen erfordern. Das Modell läuft auf einem einzelnen Huawei Ascend 910 ProA NPU und adressiert die Einschränkungen von Transformer beim schrittweisen Simulieren von Prozessen, wenn Sequenzen die Trainingslängen überschreiten.

Architekturdetails

Anstelle von Aufmerksamkeitsköpfen verwendet SFM eine Bank expliziter Speicherplätze (kleine Vektoren fester Größe). Bei jedem Token entscheidet ein Gating-Mechanismus, welche Plätze aktualisiert werden und wie. Das Modell liest von den Plätzen, berechnet eine Aktualisierung und schreibt zurück, ähnlich wie eine winzige differenzierbare Registerdatei. Dieser Ansatz steht in Beziehung zu DeltaNet, Linear Attention und Zustandsraummodellen (Mamba, RWKV), ist aber expliziter – die Plätze sind direkt adressierbar und werden über gelernte Gates aktualisiert, anstatt ein impliziter rekurrenter Zustand zu sein.

Benchmark-Setup

Der synthetische Benchmark zur Programmzustandsverfolgung umfasst Sequenzen wie x = 42; x += 17; x -= 8; x *= 2; ..., bei denen das Modell den Endwert von x vorhersagen muss (Ganzzahl 0–100, als 101-Klassen-Klassifikation formuliert).

Trainingsdaten: 10.000 Programme mit 10–27 Operationen, hoher Schwierigkeitsgrad (alle Operationen: addieren, subtrahieren, multiplizieren, ganzzahlige Division, Modulo, setzen), Seed 42
Validierung: 1.000 Programme, gleiche Verteilung
Auswertung: Test bei 1× (in der Verteilung), 2×, 4×, 8×, 16× und 32× der Trainingsprogrammlänge

Ergebnisse

Exakte Übereinstimmungsgenauigkeit:

1× (10 Operationen): State Slots 99,9 %, Transformer-Fair 100,0 %, Transformer-Large 100,0 %
2× (20 Operationen): State Slots 92,9 %, Transformer-Fair 99,0 %, Transformer-Large 99,5 %
4× (40 Operationen): State Slots 62,0 %, Transformer-Fair 1,9 %, Transformer-Large 3,1 %
8× (80 Operationen): State Slots 35,3 %, Transformer-Fair 1,3 %, Transformer-Large 1,0 %
16× (160 Operationen): State Slots 5,1 %, Transformer-Fair 0,9 %, Transformer-Large 0,7 %
32× (320 Operationen): State Slots 5,0 %, Transformer-Fair 1,0 %, Transformer-Large 0,8 %

Generalisierungsverhältnis (Genauigkeitserhalt):

State Slots: 4×/1× = 0,62×, 8×/1× = 0,35×
Transformer-Fair: 4×/1× = 0,02×, 8×/1× = 0,01×
Transformer-Large: 4×/1× = 0,03×, 8×/1× = 0,01×

Mittlerer absoluter Fehler bei Extrapolationslängen (Skala 0–100):

4×: State Slots 14,03, Transformer-Fair 40,33, Transformer-Large 36,76
8×: State Slots 26,73, Transformer-Fair 41,71, Transformer-Large 41,19

Die Transformer raten im Wesentlichen zufällig bei 4× und darüber hinaus (MAE ~40 auf einer 0–100-Skala liegt nahe am erwarteten Fehler einer gleichmäßigen Zufallsauswahl), während State Slots weiterhin sinnvolle Vorhersagen trifft.

Modellparameter

State Slots verwendet 961K Parameter, verglichen mit Transformer-Fair (443K) und Transformer-Large (2,2M).

📖 Read the full source: r/LocalLLaMA

State Flow Machine: Nicht-Transformer-Architektur behält 62 % Genauigkeit bei langen Sequenzen, während Transformers auf 2 % fallen

Architekturdetails

Benchmark-Setup

Ergebnisse

Modellparameter

👀 Siehe auch

Neuer KI-Tutor erzielt Effektstärke von 0,71-1,30 SD in Dartmouth-Kurs

OpenClaw-Client fügt Kostenverfolgung und Ausgabenlimits pro Agent hinzu

Anthropic beschränkt Claude-Abonnements über Drittanbieter-Schnittstellen wie OpenClaw.

Reddit-Diskussion kritisiert reaktive KI-Assistenten und fordert echte Proaktivität