State Flow Machine: 비트랜스포머 구조, 긴 시퀀스 62% 정확도 유지

한 개발자가 긴 시퀀스에 걸친 상태 추적이 필요한 작업을 위해 설계된 비트랜스포머 아키텍처인 State Flow Machine(SFM)을 구축했습니다. 이 모델은 단일 Huawei Ascend 910 ProA NPU에서 실행되며, 시퀀스가 학습 길이를 초과할 때 트랜스포머가 단계별로 프로세스를 시뮬레이션하는 데 한계를 극복합니다.

아키텍처 세부 사항

SFM은 어텐션 헤드 대신 명시적 메모리 슬롯(작은 고정 크기 벡터) 뱅크를 사용합니다. 각 토큰에서 게이팅 메커니즘이 어떤 슬롯을 어떻게 업데이트할지 결정합니다. 모델은 슬롯에서 읽고, 업데이트를 계산한 후 다시 기록하며, 작은 미분 가능 레지스터 파일처럼 작동합니다. 이 접근 방식은 DeltaNet, Linear Attention, 상태 공간 모델(Mamba, RWKV)과 관련이 있지만 더 명시적입니다. 슬롯은 직접 주소 지정 가능하며 암시적 순환 상태가 아닌 학습된 게이트를 통해 업데이트됩니다.

벤치마크 설정

합성 프로그램 상태 추적 벤치마크는 x = 42; x += 17; x -= 8; x *= 2; ...과 같은 시퀀스를 포함하며, 모델은 x의 최종 값(정수 0–100, 101개 클래스 분류로 구성)을 예측해야 합니다.

학습 데이터: 10,000개 프로그램, 10–27개 연산, 어려운 난이도(모든 연산: 더하기, 빼기, 곱하기, 정수 나누기, 모듈로, 설정), 시드 42
검증: 1,000개 프로그램, 동일한 분포
평가: 학습 프로그램 길이의 1배(분포 내), 2배, 4배, 8배, 16배, 32배에서 테스트

결과

정확 일치 정확도:

1배(10개 연산): State Slots 99.9%, Transformer-Fair 100.0%, Transformer-Large 100.0%
2배(20개 연산): State Slots 92.9%, Transformer-Fair 99.0%, Transformer-Large 99.5%
4배(40개 연산): State Slots 62.0%, Transformer-Fair 1.9%, Transformer-Large 3.1%
8배(80개 연산): State Slots 35.3%, Transformer-Fair 1.3%, Transformer-Large 1.0%
16배(160개 연산): State Slots 5.1%, Transformer-Fair 0.9%, Transformer-Large 0.7%
32배(320개 연산): State Slots 5.0%, Transformer-Fair 1.0%, Transformer-Large 0.8%

일반화 비율(정확도 유지):

State Slots: 4배/1배 = 0.62배, 8배/1배 = 0.35배
Transformer-Fair: 4배/1배 = 0.02배, 8배/1배 = 0.01배
Transformer-Large: 4배/1배 = 0.03배, 8배/1배 = 0.01배

외삽 길이에서의 평균 절대 오차(범위 0–100):

4배: State Slots 14.03, Transformer-Fair 40.33, Transformer-Large 36.76
8배: State Slots 26.73, Transformer-Fair 41.71, Transformer-Large 41.19

트랜스포머는 4배 이상에서 사실상 무작위로 추측하는 반면(0–100 범위에서 MAE ~40은 균일 무작위 추측의 예상 오차에 가깝습니다), State Slots는 의미 있는 예측을 계속합니다.

모델 매개변수

State Slots는 961K 매개변수를 사용하며, Transformer-Fair(443K) 및 Transformer-Large(2.2M)와 비교됩니다.

📖 Read the full source: r/LocalLLaMA

상태 흐름 기계: 트랜스포머 아키텍처가 2%로 떨어지는 긴 시퀀스에서 비트랜스포머 구조가 62% 정확도 유지

아키텍처 세부 사항

벤치마크 설정

결과

모델 매개변수

👀 See Also

나노 네이티브 마켓플레이스, 나노바자르가 자율 에이전트 협업의 길을 열다

Claude Pro 구독 버그: 유료 사용자가 무료 요금제에 갇힘

스탠퍼드 CS 25 트랜스포머 강좌, 실시간 스트리밍으로 공개 강좌 개설

오케스트레이터: 프로세스보다 의도가 중요해야 하는 이유