Машина состояний потока: архитектура без трансформеров сохраняет 62% точности на длинных последовательностях, в то время как трансформеры падают до 2%.

✍️ OpenClawRadar📅 Опубликовано: 16 марта 2026 г.🔗 Source

Разработчик создал State Flow Machine (SFM) — архитектуру, не основанную на трансформерах, предназначенную для задач, требующих отслеживания состояния в длинных последовательностях. Модель работает на одном NPU Huawei Ascend 910 ProA и решает проблему ограничений трансформеров в пошаговом моделировании процессов, когда последовательности превышают длину обучения.

Детали архитектуры

Вместо механизмов внимания SFM использует набор явных слотов памяти (небольшие векторы фиксированного размера). На каждом токене механизм гейтинга решает, какие слоты обновлять и как. Модель читает из слотов, вычисляет обновление и записывает обратно, функционируя как крошечный дифференцируемый регистровый файл. Этот подход связан с DeltaNet, Linear Attention и state-space моделями (Mamba, RWKV), но более явный — слоты напрямую адресуемы и обновляются через обученные гейты, а не являются неявным рекуррентным состоянием.

Настройка бенчмарка

Синтетический бенчмарк отслеживания состояния программы включает последовательности типа x = 42; x += 17; x -= 8; x *= 2; ..., где модель должна предсказать конечное значение x (целое число 0–100, представленное как классификация на 101 класс).

Данные для обучения: 10 000 программ с 10–27 операциями, высокая сложность (все операции: сложение, вычитание, умножение, целочисленное деление, модуль, присваивание), seed 42
Валидация: 1 000 программ, то же распределение
Оценка: тестирование при 1× (в распределении), 2×, 4×, 8×, 16× и 32× длине программы обучения

Результаты

Точность Exact Match:

1× (10 операций): State Slots 99,9%, Transformer-Fair 100,0%, Transformer-Large 100,0%
2× (20 операций): State Slots 92,9%, Transformer-Fair 99,0%, Transformer-Large 99,5%
4× (40 операций): State Slots 62,0%, Transformer-Fair 1,9%, Transformer-Large 3,1%
8× (80 операций): State Slots 35,3%, Transformer-Fair 1,3%, Transformer-Large 1,0%
16× (160 операций): State Slots 5,1%, Transformer-Fair 0,9%, Transformer-Large 0,7%
32× (320 операций): State Slots 5,0%, Transformer-Fair 1,0%, Transformer-Large 0,8%

Коэффициент обобщения (сохранение точности):

State Slots: 4×/1× = 0,62×, 8×/1× = 0,35×
Transformer-Fair: 4×/1× = 0,02×, 8×/1× = 0,01×
Transformer-Large: 4×/1× = 0,03×, 8×/1× = 0,01×

Средняя абсолютная ошибка при экстраполяции длины (шкала 0–100):

4×: State Slots 14,03, Transformer-Fair 40,33, Transformer-Large 36,76
8×: State Slots 26,73, Transformer-Fair 41,71, Transformer-Large 41,19

Трансформеры по сути угадывают случайным образом при 4× и выше (MAE ~40 на шкале 0–100 близко к ожидаемой ошибке равномерного случайного угадывания), в то время как State Slots продолжает делать осмысленные предсказания.

Параметры модели

State Slots использует 961 тыс. параметров по сравнению с Transformer-Fair (443 тыс.) и Transformer-Large (2,2 млн).

📖 Read the full source: r/LocalLLaMA

👀 Смотрите также

Новости

Разработчик Claude Code признает недостаток адаптивного мышления и предлагает обходное решение.

Борис Чарный, создатель Claude Code, подтвердил недостаток в функции адаптивного мышления, который вызывает снижение производительности. Пользователи, испытывающие проблемы даже с настройкой effort=high, могут использовать CLAUDE_CODE_DISABLE_ADAPTIVE_THINKING=1 в качестве временного решения.

17 апр. 2026 г., 13:40 UTC

OpenClawRadar

Новости

SenseNova-U1-8B-MoT: открытая исходная мультимодальная модель с архитектурой NEO-Unify

SenseNova выпустила SenseNova-U1-8B-MoT — нативную мультимодальную модель, которая устраняет как визуальный энкодер, так и VAE, используя архитектуру NEO-Unify для унифицированного понимания, рассуждения и генерации. Она отлично справляется с созданием инфографики из текста, редактированием изображений и перемежающейся генерацией текста и изображений.

5 мая 2026 г., 20:17 UTC

OpenClawRadar

Новости

Диагностика регрессии производительности Claude Code: Конфигурация, а не интеллект модели

Анализ Anthropic показывает, что падение производительности Claude Code было вызвано тремя изменениями в продукте — снижение усилий при рассуждении по умолчанию, ошибка кэширования сессий и изменение многословности промптов, а не деградацией модели. Откат изменений восстановил производительность.

18 мая 2026 г., 16:16 UTC

OpenClawRadar

Новости

Дилемма разработчика: соображения национальной безопасности ограничивают выбор открытых моделей

Разработчик, работающий с клиентами, чувствительными к вопросам национальной безопасности, сообщает о вынужденном выборе между устаревшими открытыми моделями США, такими как gpt-oss-120b, и более мощными китайскими моделями, такими как GLM и MiniMax, которые клиенты отвергают как угрозу национальной безопасности.

27 февр. 2026 г., 13:45 UTC

OpenClawRadar