Машина состояний потока: архитектура без трансформеров сохраняет 62% точности на длинных последовательностях, в то время как трансформеры падают до 2%.

✍️ OpenClawRadar📅 Опубликовано: 16 марта 2026 г.🔗 Source
Машина состояний потока: архитектура без трансформеров сохраняет 62% точности на длинных последовательностях, в то время как трансформеры падают до 2%.
Ad

Разработчик создал State Flow Machine (SFM) — архитектуру, не основанную на трансформерах, предназначенную для задач, требующих отслеживания состояния в длинных последовательностях. Модель работает на одном NPU Huawei Ascend 910 ProA и решает проблему ограничений трансформеров в пошаговом моделировании процессов, когда последовательности превышают длину обучения.

Детали архитектуры

Вместо механизмов внимания SFM использует набор явных слотов памяти (небольшие векторы фиксированного размера). На каждом токене механизм гейтинга решает, какие слоты обновлять и как. Модель читает из слотов, вычисляет обновление и записывает обратно, функционируя как крошечный дифференцируемый регистровый файл. Этот подход связан с DeltaNet, Linear Attention и state-space моделями (Mamba, RWKV), но более явный — слоты напрямую адресуемы и обновляются через обученные гейты, а не являются неявным рекуррентным состоянием.

Настройка бенчмарка

Синтетический бенчмарк отслеживания состояния программы включает последовательности типа x = 42; x += 17; x -= 8; x *= 2; ..., где модель должна предсказать конечное значение x (целое число 0–100, представленное как классификация на 101 класс).

  • Данные для обучения: 10 000 программ с 10–27 операциями, высокая сложность (все операции: сложение, вычитание, умножение, целочисленное деление, модуль, присваивание), seed 42
  • Валидация: 1 000 программ, то же распределение
  • Оценка: тестирование при 1× (в распределении), 2×, 4×, 8×, 16× и 32× длине программы обучения
Ad

Результаты

Точность Exact Match:

  • 1× (10 операций): State Slots 99,9%, Transformer-Fair 100,0%, Transformer-Large 100,0%
  • 2× (20 операций): State Slots 92,9%, Transformer-Fair 99,0%, Transformer-Large 99,5%
  • 4× (40 операций): State Slots 62,0%, Transformer-Fair 1,9%, Transformer-Large 3,1%
  • 8× (80 операций): State Slots 35,3%, Transformer-Fair 1,3%, Transformer-Large 1,0%
  • 16× (160 операций): State Slots 5,1%, Transformer-Fair 0,9%, Transformer-Large 0,7%
  • 32× (320 операций): State Slots 5,0%, Transformer-Fair 1,0%, Transformer-Large 0,8%

Коэффициент обобщения (сохранение точности):

  • State Slots: 4×/1× = 0,62×, 8×/1× = 0,35×
  • Transformer-Fair: 4×/1× = 0,02×, 8×/1× = 0,01×
  • Transformer-Large: 4×/1× = 0,03×, 8×/1× = 0,01×

Средняя абсолютная ошибка при экстраполяции длины (шкала 0–100):

  • 4×: State Slots 14,03, Transformer-Fair 40,33, Transformer-Large 36,76
  • 8×: State Slots 26,73, Transformer-Fair 41,71, Transformer-Large 41,19

Трансформеры по сути угадывают случайным образом при 4× и выше (MAE ~40 на шкале 0–100 близко к ожидаемой ошибке равномерного случайного угадывания), в то время как State Slots продолжает делать осмысленные предсказания.

Параметры модели

State Slots использует 961 тыс. параметров по сравнению с Transformer-Fair (443 тыс.) и Transformer-Large (2,2 млн).

📖 Read the full source: r/LocalLLaMA

Ad

👀 Смотрите также

Агенты ИИ для написания кода испытывают трудности с управлением контекстом в больших кодовых базах.
Новости

Агенты ИИ для написания кода испытывают трудности с управлением контекстом в больших кодовых базах.

Анализ ИИ-агентов для написания кода показывает, что они тратят 15–20 вызовов инструментов на ознакомительные задачи, такие как поиск маршрутов через grep и чтение промежуточного ПО, прежде чем начать писать код, расходуя контекстное окно. Vercel достиг 100% точности, убрав 80% инструментов и используя bash, в то время как Pi использует всего 4 инструмента и системный промпт менее 1000 токенов.

OpenClawRadar
Ошибка автоматического обновления OpenClaw оставляет в /tmp "осиротевшие" предварительные директории, которые заполняют пространство.
Новости

Ошибка автоматического обновления OpenClaw оставляет в /tmp "осиротевшие" предварительные директории, которые заполняют пространство.

Механизм автоматического обновления OpenClaw создает предварительные копии в /tmp, которые сохраняются при сбоях обновлений, потенциально заполняя дисковое пространство и блокируя дальнейшие обновления. Пользователь обнаружил 9 оставшихся каталогов общим объемом 6,5 ГБ на VPS с 38 ГБ.

OpenClawRadar
Исследование Anthropic выявило снижение когнитивных способностей при работе с ИИ-ассистентами.
Новости

Исследование Anthropic выявило снижение когнитивных способностей при работе с ИИ-ассистентами.

Глобальное исследование Anthropic с участием 80 000 пользователей показало, что академические пользователи сообщают о темпах когнитивной деградации в 2,5 раза выше среднего при использовании ИИ-инструментов, таких как Claude и Cursor. Источник определяет проблему как устранение пользователями «фазы переваривания» работы.

OpenClawRadar
Создание FastTab с использованием ИИ: Индивидуальный переключатель задач для X11
Новости

Создание FastTab с использованием ИИ: Индивидуальный переключатель задач для X11

FastTab решает конкретную проблему производительности в переключателе задач Plasma на X11 с использованием Zig и OpenGL, поддерживаемого средствами ИИ, такими как Claude.

OpenClawRadar