FOMOEにより、2,100ドルのデスクトップハードウェアで397B Qwen3.5モデルの推論が可能に

✍️ OpenClawRadar📅 公開日: March 29, 2026🔗 Source
FOMOEにより、2,100ドルのデスクトップハードウェアで397B Qwen3.5モデルの推論が可能に
Ad

FOMOEが解決する課題

大規模なMixture of Experts(MoE)モデルは、通常NVMeのようなフラッシュメモリに数百GBの重みストレージを必要とします。推論中には重みのごく一部しか必要とされませんが、事前にどの重みが必要かを予測することはできません。ランダムアクセスパターンにより、フラッシュメモリの遅延が高くなり、コンシューマーハードウェアでの実用的な推論が困難になります。

FOMOEの仕組み

このシステムは、いくつかの技術により、ほとんどのエキスパート重みの読み取りを不要にします:

  • 最新のローディングエキスパートキャッシュを使用して、最も一般的なエキスパートをGPUメモリ(VRAM)に保存
  • ウォームスタートで60%のVRAMヒット率を達成し、NVMe読み取りを28%に削減(12%はDRAMから提供)
  • 重みのロードと計算をオーバーラップさせるデュアルGPUピンポンアーキテクチャを採用
  • キャッシュ対応ルーティング(CAR)を実装 - 2つのエキスパートのスコアが類似している場合、許容範囲内でVRAMまたはDRAMキャッシュに既にある次善のスコアのエキスパートを選択

性能結果

  • Qwen3.5の3970億パラメータモデルで毎秒5〜9トークンの推論速度
  • CAR有効時、NVMe読み取りを7%に削減
  • wikitextでの測定でパープレキシティの低下はわずか3.5%
  • ハードウェア要件:2台の500ドルGPU、32GB RAM、1台のNVMeドライブ
  • Q4_K_M量子化を使用

実装は、人間の強力なガイダンスのもと、Claudeが主導する約15,000行のC/HIPコードで構成されています。

📖 Read the full source: r/LocalLLaMA

Ad

👀 See Also

AIバウンティハンターが赤字を出す理由:60の課題からのデータ
Tools

AIバウンティハンターが赤字を出す理由:60の課題からのデータ

ある開発者が、20ドルのトークン予算で、Claudeにオープンソースの報奨金を稼がせようと試みた。80以上のAlgora報奨金をスキャンした結果、ほとんどが10以上のオープンPRで飽和状態か、1ドルのスパム、または面接予約用であることが判明。期待値:0ドル。

OpenClawRadar
DoomVLM:ドゥームデスマッチにおける視覚言語モデルをテストするためのオープンソースツール
Tools

DoomVLM:ドゥームデスマッチにおける視覚言語モデルをテストするためのオープンソースツール

DoomVLMは現在、OpenAI互換APIを介してビジョン言語モデルがDoomをプレイするテストを可能にする単一のJupyterノートブックとしてオープンソース化されました。このツールは最大4つのモデルが競い合うデスマッチモードをサポートし、システムプロンプト、ツールの説明、サンプリングパラメータの完全な設定オプションを備えています。

OpenClawRadar
Any Buddy v2.0.0はClaude Code Buddiesのプレビュー機能を追加しました。
Tools

Any Buddy v2.0.0はClaude Code Buddiesのプレビュー機能を追加しました。

Any Buddy v2.0.0では、Claudeコードに適用する前にさまざまなバディをテストできるプレビュー機能が導入されました。また、Linux、Mac、Windows向けのプラットフォーム固有の修正も含まれています。このツールはリリース以来、GitHubで160のスターを獲得しています。

OpenClawRadar
ベストバックアップ:OpenClawサーバーとDockerコンテナのバックアップ用無料ツール
Tools

ベストバックアップ:OpenClawサーバーとDockerコンテナのバックアップ用無料ツール

無料ツール「best-backup」は、OpenClawサーバー向けに堅牢なバックアップ機能を提供します。これには、サーバー全体のバックアップ、特定フォルダのバックアップ、Dockerコンテナのバックアップが含まれ、圧縮、既存のSSHキーを使用した暗号化、Google Driveとの連携などの機能を備えています。

OpenClawRadar