State Flow Machine: 62% Precisión vs 2% Transformadores

Un desarrollador ha creado State Flow Machine (SFM), una arquitectura no transformadora diseñada para tareas que requieren seguimiento de estado a través de secuencias largas. El modelo se ejecuta en un solo NPU Huawei Ascend 910 ProA y aborda las limitaciones de los transformadores para simular procesos paso a paso cuando las secuencias exceden las longitudes de entrenamiento.

Detalles de la Arquitectura

En lugar de cabezas de atención, SFM utiliza un banco de ranuras de memoria explícitas (vectores de tamaño fijo pequeño). En cada token, un mecanismo de compuerta decide qué ranuras actualizar y cómo. El modelo lee de las ranuras, calcula una actualización y escribe de vuelta, funcionando como un pequeño archivo de registros diferenciable. Este enfoque está relacionado con DeltaNet, Linear Attention y modelos de estado-espacio (Mamba, RWKV), pero es más explícito: las ranuras son directamente direccionables y se actualizan mediante compuertas aprendidas en lugar de ser un estado recurrente implícito.

Configuración del Punto de Referencia

El punto de referencia sintético de seguimiento de estado de programa involucra secuencias como x = 42; x += 17; x -= 8; x *= 2; ... donde el modelo debe predecir el valor final de x (entero 0–100, enmarcado como clasificación de 101 clases).

Datos de entrenamiento: 10.000 programas con 10–27 operaciones, dificultad alta (todas las operaciones: sumar, restar, multiplicar, división entera, módulo, establecer), semilla 42
Validación: 1.000 programas, misma distribución
Evaluación: prueba a 1× (dentro de distribución), 2×, 4×, 8×, 16× y 32× la longitud del programa de entrenamiento

Resultados

Precisión de Coincidencia Exacta:

1× (10 ops): State Slots 99,9%, Transformer-Fair 100,0%, Transformer-Large 100,0%
2× (20 ops): State Slots 92,9%, Transformer-Fair 99,0%, Transformer-Large 99,5%
4× (40 ops): State Slots 62,0%, Transformer-Fair 1,9%, Transformer-Large 3,1%
8× (80 ops): State Slots 35,3%, Transformer-Fair 1,3%, Transformer-Large 1,0%
16× (160 ops): State Slots 5,1%, Transformer-Fair 0,9%, Transformer-Large 0,7%
32× (320 ops): State Slots 5,0%, Transformer-Fair 1,0%, Transformer-Large 0,8%

Proporción de generalización (retención de precisión):

State Slots: 4×/1× = 0,62×, 8×/1× = 0,35×
Transformer-Fair: 4×/1× = 0,02×, 8×/1× = 0,01×
Transformer-Large: 4×/1× = 0,03×, 8×/1× = 0,01×

Error Absoluto Medio en longitudes de extrapolación (escala 0–100):

4×: State Slots 14,03, Transformer-Fair 40,33, Transformer-Large 36,76
8×: State Slots 26,73, Transformer-Fair 41,71, Transformer-Large 41,19

Los transformadores esencialmente están adivinando al azar a 4× y más allá (MAE ~40 en una escala 0–100 está cerca del error esperado de una suposición aleatoria uniforme), mientras que State Slots continúa haciendo predicciones significativas.

Parámetros del Modelo

State Slots utiliza 961K parámetros, en comparación con Transformer-Fair (443K) y Transformer-Large (2,2M).

📖 Read the full source: r/LocalLLaMA

Máquina de Flujo de Estado: Arquitectura No Transformadora Mantiene un 62% de Precisión en Secuencias Largas Mientras los Transformadores Caen al 2%

Detalles de la Arquitectura

Configuración del Punto de Referencia

Resultados

Parámetros del Modelo

👀 Ver también

Anthropic restringe el uso de suscripciones a Claude con herramientas de terceros, incluyendo OpenClaw.

Anthropic pausa el cambio de crédito del SDK de Claude Agent tras comentarios de usuarios

OpenAI y PNNL presentan DraftNEPABench para agentes de codificación de IA en permisos federales.

Agente de IA de codificación elimina base de datos de producción y copias de seguridad en 9 segundos — Cursor + Claude Opus 4.6 se vuelve rebelde