FOMOEにより、2,100ドルのデスクトップハードウェアで397B Qwen3.5モデルの推論が可能に

FOMOEが解決する課題
大規模なMixture of Experts(MoE)モデルは、通常NVMeのようなフラッシュメモリに数百GBの重みストレージを必要とします。推論中には重みのごく一部しか必要とされませんが、事前にどの重みが必要かを予測することはできません。ランダムアクセスパターンにより、フラッシュメモリの遅延が高くなり、コンシューマーハードウェアでの実用的な推論が困難になります。
FOMOEの仕組み
このシステムは、いくつかの技術により、ほとんどのエキスパート重みの読み取りを不要にします:
- 最新のローディングエキスパートキャッシュを使用して、最も一般的なエキスパートをGPUメモリ(VRAM)に保存
- ウォームスタートで60%のVRAMヒット率を達成し、NVMe読み取りを28%に削減(12%はDRAMから提供)
- 重みのロードと計算をオーバーラップさせるデュアルGPUピンポンアーキテクチャを採用
- キャッシュ対応ルーティング(CAR)を実装 - 2つのエキスパートのスコアが類似している場合、許容範囲内でVRAMまたはDRAMキャッシュに既にある次善のスコアのエキスパートを選択
性能結果
- Qwen3.5の3970億パラメータモデルで毎秒5〜9トークンの推論速度
- CAR有効時、NVMe読み取りを7%に削減
- wikitextでの測定でパープレキシティの低下はわずか3.5%
- ハードウェア要件:2台の500ドルGPU、32GB RAM、1台のNVMeドライブ
- Q4_K_M量子化を使用
実装は、人間の強力なガイダンスのもと、Claudeが主導する約15,000行のC/HIPコードで構成されています。
📖 Read the full source: r/LocalLLaMA
👀 See Also

AIバウンティハンターが赤字を出す理由:60の課題からのデータ
ある開発者が、20ドルのトークン予算で、Claudeにオープンソースの報奨金を稼がせようと試みた。80以上のAlgora報奨金をスキャンした結果、ほとんどが10以上のオープンPRで飽和状態か、1ドルのスパム、または面接予約用であることが判明。期待値:0ドル。

DoomVLM:ドゥームデスマッチにおける視覚言語モデルをテストするためのオープンソースツール
DoomVLMは現在、OpenAI互換APIを介してビジョン言語モデルがDoomをプレイするテストを可能にする単一のJupyterノートブックとしてオープンソース化されました。このツールは最大4つのモデルが競い合うデスマッチモードをサポートし、システムプロンプト、ツールの説明、サンプリングパラメータの完全な設定オプションを備えています。

Any Buddy v2.0.0はClaude Code Buddiesのプレビュー機能を追加しました。
Any Buddy v2.0.0では、Claudeコードに適用する前にさまざまなバディをテストできるプレビュー機能が導入されました。また、Linux、Mac、Windows向けのプラットフォーム固有の修正も含まれています。このツールはリリース以来、GitHubで160のスターを獲得しています。

ベストバックアップ:OpenClawサーバーとDockerコンテナのバックアップ用無料ツール
無料ツール「best-backup」は、OpenClawサーバー向けに堅牢なバックアップ機能を提供します。これには、サーバー全体のバックアップ、特定フォルダのバックアップ、Dockerコンテナのバックアップが含まれ、圧縮、既存のSSHキーを使用した暗号化、Google Driveとの連携などの機能を備えています。