State Flow Machine vs Transformer：長いシーケンスで62%精度維持、2%低下のトランスフォーマーに勝利

開発者がState Flow Machine（SFM）を構築しました。これは長いシーケンスにわたる状態追跡を必要とするタスク向けに設計された非トランスフォーマーアーキテクチャです。このモデルは単一のHuawei Ascend 910 ProA NPUで動作し、シーケンスがトレーニング長を超えた際のトランスフォーマーの段階的プロセスシミュレーションの限界に対処します。

アーキテクチャ詳細

アテンションヘッドの代わりに、SFMは明示的なメモリスロット（小さな固定サイズベクトル）のバンクを使用します。各トークンにおいて、ゲーティングメカニズムがどのスロットをどのように更新するかを決定します。モデルはスロットから読み取り、更新を計算し、書き戻すことで、小さな微分可能なレジスタファイルのように機能します。このアプローチはDeltaNet、Linear Attention、状態空間モデル（Mamba、RWKV）に関連していますが、より明示的です。スロットは直接アドレス指定可能で、暗黙的な再帰状態ではなく学習されたゲートを介して更新されます。

ベンチマーク設定

合成プログラム状態追跡ベンチマークでは、x = 42; x += 17; x -= 8; x *= 2; ...のようなシーケンスが含まれ、モデルはxの最終値（0〜100の整数、101クラス分類としてフレーム化）を予測する必要があります。

トレーニングデータ：10,000プログラム、10〜27操作、高難度（全操作：加算、減算、乗算、整数除算、剰余、設定）、シード42
検証：1,000プログラム、同じ分布
評価：トレーニングプログラム長の1倍（分布内）、2倍、4倍、8倍、16倍、32倍でテスト

結果

完全一致精度：

1倍（10操作）：State Slots 99.9%、Transformer-Fair 100.0%、Transformer-Large 100.0%
2倍（20操作）：State Slots 92.9%、Transformer-Fair 99.0%、Transformer-Large 99.5%
4倍（40操作）：State Slots 62.0%、Transformer-Fair 1.9%、Transformer-Large 3.1%
8倍（80操作）：State Slots 35.3%、Transformer-Fair 1.3%、Transformer-Large 1.0%
16倍（160操作）：State Slots 5.1%、Transformer-Fair 0.9%、Transformer-Large 0.7%
32倍（320操作）：State Slots 5.0%、Transformer-Fair 1.0%、Transformer-Large 0.8%

一般化比率（精度保持）：

State Slots：4倍/1倍 = 0.62倍、8倍/1倍 = 0.35倍
Transformer-Fair：4倍/1倍 = 0.02倍、8倍/1倍 = 0.01倍
Transformer-Large：4倍/1倍 = 0.03倍、8倍/1倍 = 0.01倍

外挿長における平均絶対誤差（スケール0〜100）：

4倍：State Slots 14.03、Transformer-Fair 40.33、Transformer-Large 36.76
8倍：State Slots 26.73、Transformer-Fair 41.71、Transformer-Large 41.19

トランスフォーマーは4倍以降では実質的にランダムな推測を行っています（0〜100スケールでMAE〜40は一様ランダム推測の期待誤差に近い）。一方、State Slotsは意味のある予測を続けています。

モデルパラメータ

State Slotsは961Kパラメータを使用し、Transformer-Fair（443K）およびTransformer-Large（2.2M）と比較されます。

📖 Read the full source: r/LocalLLaMA

ステートフロー機械：トランスフォーマーが2％に低下する長いシーケンスで、非トランスフォーマーアーキテクチャが62％の精度を維持

アーキテクチャ詳細

ベンチマーク設定

結果

モデルパラメータ

👀 See Also

AIにおける逸脱の常態化：なぜあなたのエージェントシステムは失敗するのか

三つの逆ロボット工学三原則：AI利用のための人間向けガイドライン

Claude記憶機能によりバージョンが戻る問題：ユーザーが1日の作業を失う

Anthropicのソースコード漏洩により、未発表のClaude機能と内部モデルが明らかになりました