State Flow Machine: Nicht-Transformer-Architektur behält 62 % Genauigkeit bei langen Sequenzen, während Transformers auf 2 % fallen

Ein Entwickler hat State Flow Machine (SFM) gebaut, eine Nicht-Transformer-Architektur, die für Aufgaben entwickelt wurde, die eine Zustandsverfolgung über lange Sequenzen erfordern. Das Modell läuft auf einem einzelnen Huawei Ascend 910 ProA NPU und adressiert die Einschränkungen von Transformer beim schrittweisen Simulieren von Prozessen, wenn Sequenzen die Trainingslängen überschreiten.
Architekturdetails
Anstelle von Aufmerksamkeitsköpfen verwendet SFM eine Bank expliziter Speicherplätze (kleine Vektoren fester Größe). Bei jedem Token entscheidet ein Gating-Mechanismus, welche Plätze aktualisiert werden und wie. Das Modell liest von den Plätzen, berechnet eine Aktualisierung und schreibt zurück, ähnlich wie eine winzige differenzierbare Registerdatei. Dieser Ansatz steht in Beziehung zu DeltaNet, Linear Attention und Zustandsraummodellen (Mamba, RWKV), ist aber expliziter – die Plätze sind direkt adressierbar und werden über gelernte Gates aktualisiert, anstatt ein impliziter rekurrenter Zustand zu sein.
Benchmark-Setup
Der synthetische Benchmark zur Programmzustandsverfolgung umfasst Sequenzen wie x = 42; x += 17; x -= 8; x *= 2; ..., bei denen das Modell den Endwert von x vorhersagen muss (Ganzzahl 0–100, als 101-Klassen-Klassifikation formuliert).
- Trainingsdaten: 10.000 Programme mit 10–27 Operationen, hoher Schwierigkeitsgrad (alle Operationen: addieren, subtrahieren, multiplizieren, ganzzahlige Division, Modulo, setzen), Seed 42
- Validierung: 1.000 Programme, gleiche Verteilung
- Auswertung: Test bei 1× (in der Verteilung), 2×, 4×, 8×, 16× und 32× der Trainingsprogrammlänge
Ergebnisse
Exakte Übereinstimmungsgenauigkeit:
- 1× (10 Operationen): State Slots 99,9 %, Transformer-Fair 100,0 %, Transformer-Large 100,0 %
- 2× (20 Operationen): State Slots 92,9 %, Transformer-Fair 99,0 %, Transformer-Large 99,5 %
- 4× (40 Operationen): State Slots 62,0 %, Transformer-Fair 1,9 %, Transformer-Large 3,1 %
- 8× (80 Operationen): State Slots 35,3 %, Transformer-Fair 1,3 %, Transformer-Large 1,0 %
- 16× (160 Operationen): State Slots 5,1 %, Transformer-Fair 0,9 %, Transformer-Large 0,7 %
- 32× (320 Operationen): State Slots 5,0 %, Transformer-Fair 1,0 %, Transformer-Large 0,8 %
Generalisierungsverhältnis (Genauigkeitserhalt):
- State Slots: 4×/1× = 0,62×, 8×/1× = 0,35×
- Transformer-Fair: 4×/1× = 0,02×, 8×/1× = 0,01×
- Transformer-Large: 4×/1× = 0,03×, 8×/1× = 0,01×
Mittlerer absoluter Fehler bei Extrapolationslängen (Skala 0–100):
- 4×: State Slots 14,03, Transformer-Fair 40,33, Transformer-Large 36,76
- 8×: State Slots 26,73, Transformer-Fair 41,71, Transformer-Large 41,19
Die Transformer raten im Wesentlichen zufällig bei 4× und darüber hinaus (MAE ~40 auf einer 0–100-Skala liegt nahe am erwarteten Fehler einer gleichmäßigen Zufallsauswahl), während State Slots weiterhin sinnvolle Vorhersagen trifft.
Modellparameter
State Slots verwendet 961K Parameter, verglichen mit Transformer-Fair (443K) und Transformer-Large (2,2M).
📖 Read the full source: r/LocalLLaMA
👀 Siehe auch

Claude Code Telegram Plugin Fehler: MCP-Benachrichtigungen werden stillschweigend verworfen — Workaround via Datei-Polling und tmux-Injektion
Ein Telegram-Plugin für Claude Code funktioniert korrekt, aber eingehende Nachrichten werden stillschweigend verworfen, da Claude Code MCP-Benachrichtigungen über den stdio-Transport verwirft. Ein Workaround verwendet Dateiabfrage und tmux send-keys mit etwa 5–9 Sekunden Latenz.

Meta wird Mausbewegungen und Tastatureingaben von Mitarbeitern für KI-Training erfassen.
Meta plant laut einem Reuters-Bericht damit zu beginnen, Mausbewegungen und Tastatureingaben von Mitarbeitern für KI-Trainingsdaten zu erfassen. Der Artikel hat auf Hacker News mit 33 Punkten und 7 Kommentaren Diskussionen ausgelöst.

OpenClaw April-Updates: Ein Monat der bahnbrechenden Änderungen und des verlorenen Vertrauens
Die April-Updates von OpenClaw zeigen ein Muster: Neue Funktionen und Fehlerbehebungen werden zusammen mit kritischen Bugs ausgeliefert. Postinstall-Skripte löschen Dateien, Sicherheitslücken auftauchen und Fähigkeiten sind defekt – das untergräbt das Vertrauen.

Anthropic startet Fernsteuerung für Claude Code
Anthropic hat eine Fernsteuerungsfunktion für Claude Code eingeführt, die es Nutzern ermöglicht, ihre Codingsitzungen von Mobilgeräten aus fortzusetzen. Die Funktion ist unter code.claude.com/docs/en/remote-control dokumentiert.