FOMOE Permite la Inferencia del Modelo Qwen3.5 de 397B en Hardware de Escritorio de $2,100

Qué resuelve FOMOE
Los grandes modelos Mixture of Experts (MoE) requieren cientos de GB de almacenamiento de pesos, típicamente en memoria flash como NVMe. Durante la inferencia, solo se necesita una pequeña fracción de los pesos, pero no se pueden predecir cuáles de antemano. Los patrones de acceso aleatorio hacen que las latencias de flash sean demasiado altas para una inferencia práctica en hardware de consumo.
Cómo funciona FOMOE
El sistema hace innecesarias la mayoría de las lecturas de pesos de expertos mediante varias técnicas:
- Almacena los expertos más comunes en la memoria de la GPU (VRAM) con una caché de expertos rodante actualizada
- Logra una tasa de aciertos del 60% en VRAM con inicio cálido, reduciendo las lecturas NVMe al 28% (12% servidas desde DRAM)
- Utiliza arquitectura ping-pong de doble GPU para superponer la carga de pesos y el cómputo
- Implementa Enrutamiento Consciente de la Caché (CAR): cuando dos expertos obtienen puntuaciones similares, el modelo elige el siguiente experto mejor puntuado que ya esté en la caché VRAM o DRAM dentro de un umbral aceptable
Resultados de rendimiento
- Velocidad de inferencia de 5-9 tokens/segundo para el modelo de 397B parámetros de Qwen3.5
- Lecturas NVMe reducidas al 7% con CAR habilitado
- Solo un 3.5% de caída en perplejidad medido en wikitext
- Requisitos de hardware: dos GPU de $500, 32GB de RAM, una unidad NVMe
- Utiliza cuantización Q4_K_M
La implementación consiste en aproximadamente 15,000 líneas de código C/HIP impulsado por Claude con fuerte guía humana.
📖 Read the full source: r/LocalLLaMA
👀 Ver también

agentmemory V4 logra un 96.2% en el benchmark LongMemEval, superando a los sistemas de memoria de IA comerciales.
agentmemory V4 obtuvo un puntaje del 96.2% en LongMemEval, superando a varias empresas de memoria de IA con financiamiento, incluyendo PwC Chronos (95.6%), Mastra (94.87%) y OMEGA (93.2%). El sistema fue construido por una sola persona en 16 días en una PC de gama media con un presupuesto de $1,000.

Construyendo un Lenguaje de Programación con Claude Code: El Experimento Cutlet
Ankur Sethi construyó un lenguaje de programación completo llamado Cutlet usando Claude Code durante cuatro semanas, con la IA generando cada línea de código mientras él se enfocaba en barreras de seguridad y pruebas. El lenguaje cuenta con tipado dinámico, operaciones vectorizadas y un REPL, ejecutándose en macOS y Linux.

Team Memory MCP: Memoria Compartida de Código Abierto para Claude Code con Puntuación de Confianza Bayesiana
Team Memory MCP es una herramienta de código abierto que proporciona memoria compartida para equipos en Claude Code con puntuación de confianza bayesiana. Utiliza un modelo Beta-Bernoulli para clasificar patrones, incluye desgaste temporal con una vida media de 90 días y se puede agregar a Claude Code con un solo comando.

Directorio de Servidores MCP con Prioridad en la Privacidad se Lanza con Políticas Documentadas de Manejo de Datos
Un nuevo directorio en toolora.dev/mcp-hub enumera servidores MCP con políticas documentadas de manejo de datos, incluyendo clasificación local vs alojada, qué datos transmite cada herramienta y si se requieren cuentas. El creador también proporciona un método de prueba en el navegador para verificar las afirmaciones de privacidad.