Krasis: 大規模MoEモデルのためのハイブリッドCPU/GPUランタイム、RTX 5080で3,324 tok/sのプリフィルを達成

Krasisは、大規模なMixture-of-Experts(MoE)モデルに特化して設計されたハイブリッドCPU/GPUランタイムです。コアとなるアプローチは、計算コストの高いプリフィルフェーズをGPUで処理し、デコードをCPUで担当するもので、システムRAMが追加の容量を提供してパフォーマンスを最大化します。
ベンチマーク結果
RTX 5080構成:
- ハードウェア: AMD 5900X, DDR4-3200, 1x RTX 5080 16GB, PCIe 4.0 x16
- Qwen3-Coder-Next (80B) Q4: 3,324トークン/秒 プリフィル, 9.7秒 TTFT (35Kコンテキスト), 14.9トークン/秒 デコード
EPYC構成:
- ハードウェア: AMD EPYC 7742 (64コア), DDR4-2666 8チャネル, 1x RTX 2000 Ada 16GB, PCIe 4.0 x8
- Qwen3-Coder-Next (80B) Q4: 1,060トークン/秒 プリフィル, 18.9秒 TTFT, 15.8トークン/秒 デコード
- Qwen3-Coder-Next (80B) Q8: 873トークン/秒 プリフィル, 40.1秒 TTFT, 12.4トークン/秒 デコード
- Qwen3.5-35B-A3B Q4: 1,374トークン/秒 プリフィル, 14.6秒 TTFT, 15.0トークン/秒 デコード
- Qwen3-235B-A22B Q4: 289トークン/秒 プリフィル, 69.1秒 TTFT, 3.4トークン/秒 デコード
- DeepSeek V2-Lite (16B) Q4: 1,477トークン/秒 プリフィル, 13.6秒 TTFT, 20.2トークン/秒 デコード
- DeepSeek V2-Lite (16B) Q8: 1,317トークン/秒 プリフィル, 15.2秒 TTFT, 17.8トークン/秒 デコード
ベンチマークでは、プリフィルに10K〜50Kトークンのプロンプトを使用し(20K/35K/50Kの最良値を報告)、デコードには64トークンの生成を3回実行した平均値を使用しています。
仕組み
標準的なランタイムがGPUに数層のみをオフロードし、モデルの大部分をCPUで実行するのとは異なり、KrasisはGPUをストリーミングコンピュートエンジンとして扱います。VRAMを通じてモデルを可能な限り高速に処理し、転送を並行計算の下に隠蔽します。GPUが完全なプリフィルパスを処理した後、CPUがデコードを担当します。
トレードオフ
- RAMを大量に消費: 量子化されたモデルウェイトの約2.5倍のシステムRAMが必要(例: Qwen3-Coder-Next Q4で約100GB)
- NVIDIAカードのみ対応
- MoEモデルに特化(密なモデルではデコードが遅くなる)
- 初回実行は前処理とキャッシングにより遅い
- ディスクを大量に消費: 元のBF16 safetensorsファイルが必要で、キャッシュされたトランスコードモデルを保存(量子化モデルサイズの約2倍)
対応モデル
Qwen3-Coder-Next(最も徹底的にテスト済み)、Qwen3.5-35B-A3B、Qwen3-235B-A22B、DeepSeek V2-Lite。その他のモデルは近日対応予定。
技術詳細
- Rust + Pythonで記述(オーケストレーション用)
- OpenAI互換API(Cursor、OpenCodeなどで動作)
- 設定用のインタラクティブランチャー
- SSPLライセンス(無料で使用、改変、配布可能)
- GitHub: https://github.com/brontoguana/krasis
開発者は、次にどのモデルをサポートすべきか、トレードオフに関する意見、5シリーズカードとPCIe 5.0を搭載したユーザーからのベンチマークについてフィードバックを求めています。
📖 完全なソースを読む: r/LocalLLaMA
👀 See Also

RiserFlow MCPサーバーがOpenClawにEコマース機能を追加
RiserFlowというオープンソースのMCPサーバーは、OpenClawに製品の意味的検索、カート管理、実際の注文を店舗管理システムに反映させる機能を提供します。現在はBitrixに対応しており、他のプラットフォーム向けのアダプターパターンも備えています。

OpenClaw A2Aプラグイン:インターネットを介したエージェント間直接メッセージング
OpenClaw A2Aプラグインにより、OpenClawと他のエージェント間で、WhatsAppやメールなどのサードパーティサービスを介さずに、インターネット経由でファイルやメッセージを直接転送できます。

テンセントのモデルを試用:エージェントワークフローに強く、複雑なコーディングに弱い
Tencentのモデルはエージェントタスクで8/10、幻覚率は低いが、Notion APIスキーマのような複雑なコーディングでは失敗。バックエンドロジックには非推奨。

Kvaser: サブエージェントルーティングとWolfram統合を備えたオープンソースのローカルファーストAIオーケストレーター
Kvaserは中間者MCPプロキシで、スマートツールホワイトリスティング、Kiwixによるゼロ埋め込みRAG、Wolfram Engine連携による記号数学を備え、サブエージェントを調整します。Qwen 3.6 35Bを基盤とし、サブエージェントを異なるモデルやマシンにルーティングします。