FOMOE: Ejecuta Qwen3.5 397B a 5-9 tok/s en PC de $2,100

Qué resuelve FOMOE

Los grandes modelos Mixture of Experts (MoE) requieren cientos de GB de almacenamiento de pesos, típicamente en memoria flash como NVMe. Durante la inferencia, solo se necesita una pequeña fracción de los pesos, pero no se pueden predecir cuáles de antemano. Los patrones de acceso aleatorio hacen que las latencias de flash sean demasiado altas para una inferencia práctica en hardware de consumo.

Cómo funciona FOMOE

El sistema hace innecesarias la mayoría de las lecturas de pesos de expertos mediante varias técnicas:

Almacena los expertos más comunes en la memoria de la GPU (VRAM) con una caché de expertos rodante actualizada
Logra una tasa de aciertos del 60% en VRAM con inicio cálido, reduciendo las lecturas NVMe al 28% (12% servidas desde DRAM)
Utiliza arquitectura ping-pong de doble GPU para superponer la carga de pesos y el cómputo
Implementa Enrutamiento Consciente de la Caché (CAR): cuando dos expertos obtienen puntuaciones similares, el modelo elige el siguiente experto mejor puntuado que ya esté en la caché VRAM o DRAM dentro de un umbral aceptable

Resultados de rendimiento

Velocidad de inferencia de 5-9 tokens/segundo para el modelo de 397B parámetros de Qwen3.5
Lecturas NVMe reducidas al 7% con CAR habilitado
Solo un 3.5% de caída en perplejidad medido en wikitext
Requisitos de hardware: dos GPU de $500, 32GB de RAM, una unidad NVMe
Utiliza cuantización Q4_K_M

La implementación consiste en aproximadamente 15,000 líneas de código C/HIP impulsado por Claude con fuerte guía humana.

📖 Read the full source: r/LocalLLaMA

FOMOE Permite la Inferencia del Modelo Qwen3.5 de 397B en Hardware de Escritorio de $2,100

Qué resuelve FOMOE

Cómo funciona FOMOE

Resultados de rendimiento

👀 Ver también

MCP permite que Claude analice automáticamente los datos de Google Search Console

OpenClaw vs Hermes: Diferentes Filosofías de Diseño para Agentes de IA

Cómo los asistentes de IA obtienen páginas web: Análisis de registros de Nginx de ChatGPT, Claude, Gemini y otros

Servidor MCP de Código Abierto Conecta Claude con la API de Mailchimp