Qwen3.5 397Bモデルを2,100ドルのPCで実行可能に: FOMOE推論

FOMOEが解決する課題

大規模なMixture of Experts（MoE）モデルは、通常NVMeのようなフラッシュメモリに数百GBの重みストレージを必要とします。推論中には重みのごく一部しか必要とされませんが、事前にどの重みが必要かを予測することはできません。ランダムアクセスパターンにより、フラッシュメモリの遅延が高くなり、コンシューマーハードウェアでの実用的な推論が困難になります。

FOMOEの仕組み

このシステムは、いくつかの技術により、ほとんどのエキスパート重みの読み取りを不要にします：

最新のローディングエキスパートキャッシュを使用して、最も一般的なエキスパートをGPUメモリ（VRAM）に保存
ウォームスタートで60%のVRAMヒット率を達成し、NVMe読み取りを28%に削減（12%はDRAMから提供）
重みのロードと計算をオーバーラップさせるデュアルGPUピンポンアーキテクチャを採用
キャッシュ対応ルーティング（CAR）を実装 - 2つのエキスパートのスコアが類似している場合、許容範囲内でVRAMまたはDRAMキャッシュに既にある次善のスコアのエキスパートを選択