상태 흐름 기계: 트랜스포머 아키텍처가 2%로 떨어지는 긴 시퀀스에서 비트랜스포머 구조가 62% 정확도 유지

한 개발자가 긴 시퀀스에 걸친 상태 추적이 필요한 작업을 위해 설계된 비트랜스포머 아키텍처인 State Flow Machine(SFM)을 구축했습니다. 이 모델은 단일 Huawei Ascend 910 ProA NPU에서 실행되며, 시퀀스가 학습 길이를 초과할 때 트랜스포머가 단계별로 프로세스를 시뮬레이션하는 데 한계를 극복합니다.
아키텍처 세부 사항
SFM은 어텐션 헤드 대신 명시적 메모리 슬롯(작은 고정 크기 벡터) 뱅크를 사용합니다. 각 토큰에서 게이팅 메커니즘이 어떤 슬롯을 어떻게 업데이트할지 결정합니다. 모델은 슬롯에서 읽고, 업데이트를 계산한 후 다시 기록하며, 작은 미분 가능 레지스터 파일처럼 작동합니다. 이 접근 방식은 DeltaNet, Linear Attention, 상태 공간 모델(Mamba, RWKV)과 관련이 있지만 더 명시적입니다. 슬롯은 직접 주소 지정 가능하며 암시적 순환 상태가 아닌 학습된 게이트를 통해 업데이트됩니다.
벤치마크 설정
합성 프로그램 상태 추적 벤치마크는 x = 42; x += 17; x -= 8; x *= 2; ...과 같은 시퀀스를 포함하며, 모델은 x의 최종 값(정수 0–100, 101개 클래스 분류로 구성)을 예측해야 합니다.
- 학습 데이터: 10,000개 프로그램, 10–27개 연산, 어려운 난이도(모든 연산: 더하기, 빼기, 곱하기, 정수 나누기, 모듈로, 설정), 시드 42
- 검증: 1,000개 프로그램, 동일한 분포
- 평가: 학습 프로그램 길이의 1배(분포 내), 2배, 4배, 8배, 16배, 32배에서 테스트
결과
정확 일치 정확도:
- 1배(10개 연산): State Slots 99.9%, Transformer-Fair 100.0%, Transformer-Large 100.0%
- 2배(20개 연산): State Slots 92.9%, Transformer-Fair 99.0%, Transformer-Large 99.5%
- 4배(40개 연산): State Slots 62.0%, Transformer-Fair 1.9%, Transformer-Large 3.1%
- 8배(80개 연산): State Slots 35.3%, Transformer-Fair 1.3%, Transformer-Large 1.0%
- 16배(160개 연산): State Slots 5.1%, Transformer-Fair 0.9%, Transformer-Large 0.7%
- 32배(320개 연산): State Slots 5.0%, Transformer-Fair 1.0%, Transformer-Large 0.8%
일반화 비율(정확도 유지):
- State Slots: 4배/1배 = 0.62배, 8배/1배 = 0.35배
- Transformer-Fair: 4배/1배 = 0.02배, 8배/1배 = 0.01배
- Transformer-Large: 4배/1배 = 0.03배, 8배/1배 = 0.01배
외삽 길이에서의 평균 절대 오차(범위 0–100):
- 4배: State Slots 14.03, Transformer-Fair 40.33, Transformer-Large 36.76
- 8배: State Slots 26.73, Transformer-Fair 41.71, Transformer-Large 41.19
트랜스포머는 4배 이상에서 사실상 무작위로 추측하는 반면(0–100 범위에서 MAE ~40은 균일 무작위 추측의 예상 오차에 가깝습니다), State Slots는 의미 있는 예측을 계속합니다.
모델 매개변수
State Slots는 961K 매개변수를 사용하며, Transformer-Fair(443K) 및 Transformer-Large(2.2M)와 비교됩니다.
📖 Read the full source: r/LocalLLaMA
👀 See Also

애플의 libibverbs가 GPUDirect RDMA 심볼을 숨김; macOS에서 제로 카피 메탈 버퍼 RDMA 작동
개발자가 Apple의 RDMA 서브시스템이 Metal GPU 버퍼를 제로카피 네트워크 전송에 허용한다는 사실을 발견했으며, 숨겨진 ibv_reg_dmabuf_mr 심볼이 macOS에서 커널 수정 없이 GPUDirect RDMA가 가능함을 시사한다고 밝혔습니다.

클로드 AI, 다중 플랫폼에서 오류 증가 보고
2026년 3월 2일, Anthropic의 Claude AI 시스템이 claude.ai, Claude Console, Claude Code에서 오류 발생률이 증가했습니다. 회사의 상태 페이지와 Reddit 성능 스레드에서 모니터링 및 커뮤니티 보고서를 제공하고 있습니다.

db-wal-recovery 작업의 TB2 벤치마킹 문제 분석
레딧 분석에 따르면, Terminal Bench 2.0의 db-wal-recovery 작업에서 에이전트가 SQLite 데이터베이스를 열어 증거를 실수로 파괴할 수 있는 문제가 드러났으며, 프롬프트 주입이 리더보드 결과에 어떤 영향을 미치는지 보여줍니다.

아홈 가지 일반적인 AI 코딩 에이전트 실패 패턴과 사전 실행 검증
레딧 게시물은 AI 코딩 에이전트가 실패하는 일반적인 원인인 9가지 특정 실패 패턴을 식별하며, 불완전한 열거형 처리, 침묵하는 널 경로, 환각된 임포트 등을 포함합니다. 저자는 실행 전에 검증 단계를 구현하면 이러한 실패의 약 70%를 잡을 수 있다고 보고합니다.