FOMOE Roda Qwen3.5 397B em Desktop com 2 GPUs Ryzen a 9 Tokens/s

O que o FOMOE Resolve

Modelos grandes de Mistura de Especialistas (MoE) exigem centenas de GBs de armazenamento de pesos, tipicamente em memória flash como NVMe. Durante a inferência, apenas uma pequena fração dos pesos é necessária, mas não é possível prever quais deles antecipadamente. Padrões de acesso aleatório tornam as latências da flash muito altas para inferência prática em hardware de consumo.

Como o FOMOE Funciona

O sistema torna a maioria das leituras de pesos de especialistas desnecessárias através de várias técnicas:

Armazena os especialistas mais comuns na memória da GPU (VRAM) com um cache de especialistas rolante atualizado
Atinge taxa de acerto de 60% na VRAM com inicialização aquecida, reduzindo leituras NVMe para 28% (12% servidos da DRAM)
Usa arquitetura ping-pong de GPU dupla para sobrepor carregamento de pesos e computação
Implementa Roteamento Consciente de Cache (CAR) - quando dois especialistas pontuam de forma similar, o modelo escolhe o próximo especialista com melhor pontuação já no cache VRAM ou DRAM dentro de um limite aceitável

Resultados de Desempenho

Velocidade de inferência de 5-9 tokens/segundo para o modelo de 397B parâmetros do Qwen3.5
Leituras NVMe reduzidas para 7% com CAR ativado
Apenas 3,5% de queda na perplexidade medida no wikitext
Requisitos de hardware: duas GPUs de US$ 500, 32 GB de RAM, uma unidade NVMe
Usa quantização Q4_K_M

A implementação consiste em aproximadamente 15.000 linhas de código C/HIP dirigido por Claude com forte orientação humana.

📖 Leia a fonte completa: r/LocalLLaMA