Krasis: ハイブリッドCPU/GPUランタイム、RTX 5080で3,324 tok/s達成

Krasisは、大規模なMixture-of-Experts（MoE）モデルに特化して設計されたハイブリッドCPU/GPUランタイムです。コアとなるアプローチは、計算コストの高いプリフィルフェーズをGPUで処理し、デコードをCPUで担当するもので、システムRAMが追加の容量を提供してパフォーマンスを最大化します。

ベンチマーク結果

RTX 5080構成:

ハードウェア: AMD 5900X, DDR4-3200, 1x RTX 5080 16GB, PCIe 4.0 x16
Qwen3-Coder-Next (80B) Q4: 3,324トークン/秒プリフィル, 9.7秒 TTFT (35Kコンテキスト), 14.9トークン/秒デコード

EPYC構成:

ハードウェア: AMD EPYC 7742 (64コア), DDR4-2666 8チャネル, 1x RTX 2000 Ada 16GB, PCIe 4.0 x8
Qwen3-Coder-Next (80B) Q4: 1,060トークン/秒プリフィル, 18.9秒 TTFT, 15.8トークン/秒デコード
Qwen3-Coder-Next (80B) Q8: 873トークン/秒プリフィル, 40.1秒 TTFT, 12.4トークン/秒デコード
Qwen3.5-35B-A3B Q4: 1,374トークン/秒プリフィル, 14.6秒 TTFT, 15.0トークン/秒デコード
Qwen3-235B-A22B Q4: 289トークン/秒プリフィル, 69.1秒 TTFT, 3.4トークン/秒デコード
DeepSeek V2-Lite (16B) Q4: 1,477トークン/秒プリフィル, 13.6秒 TTFT, 20.2トークン/秒デコード
DeepSeek V2-Lite (16B) Q8: 1,317トークン/秒プリフィル, 15.2秒 TTFT, 17.8トークン/秒デコード

ベンチマークでは、プリフィルに10K〜50Kトークンのプロンプトを使用し（20K/35K/50Kの最良値を報告）、デコードには64トークンの生成を3回実行した平均値を使用しています。

仕組み

標準的なランタイムがGPUに数層のみをオフロードし、モデルの大部分をCPUで実行するのとは異なり、KrasisはGPUをストリーミングコンピュートエンジンとして扱います。VRAMを通じてモデルを可能な限り高速に処理し、転送を並行計算の下に隠蔽します。GPUが完全なプリフィルパスを処理した後、CPUがデコードを担当します。

トレードオフ

RAMを大量に消費: 量子化されたモデルウェイトの約2.5倍のシステムRAMが必要（例: Qwen3-Coder-Next Q4で約100GB）
NVIDIAカードのみ対応
MoEモデルに特化（密なモデルではデコードが遅くなる）
初回実行は前処理とキャッシングにより遅い
ディスクを大量に消費: 元のBF16 safetensorsファイルが必要で、キャッシュされたトランスコードモデルを保存（量子化モデルサイズの約2倍）

対応モデル

Qwen3-Coder-Next（最も徹底的にテスト済み）、Qwen3.5-35B-A3B、Qwen3-235B-A22B、DeepSeek V2-Lite。その他のモデルは近日対応予定。

技術詳細

Rust + Pythonで記述（オーケストレーション用）
OpenAI互換API（Cursor、OpenCodeなどで動作）
設定用のインタラクティブランチャー
SSPLライセンス（無料で使用、改変、配布可能）
GitHub: https://github.com/brontoguana/krasis

開発者は、次にどのモデルをサポートすべきか、トレードオフに関する意見、5シリーズカードとPCIe 5.0を搭載したユーザーからのベンチマークについてフィードバックを求めています。

📖 完全なソースを読む: r/LocalLLaMA

Krasis: 大規模MoEモデルのためのハイブリッドCPU/GPUランタイム、RTX 5080で3,324 tok/sのプリフィルを達成

ベンチマーク結果

仕組み

トレードオフ

対応モデル

技術詳細

👀 See Also

Doc Harness：セッション間でプロジェクトの状態を維持するためのClaudeコードスキル

エージェンティック・コンテキスト・エンジン：自動化エージェント改善ループによる34.2%の精度向上

WebMCPブラウザAPIは、AIエージェントのウェブスクレイピングの必要性を軽減する可能性があります。

Claude Code Studio：複数のClaudeコーディングセッションを管理するオープンソースデスクトップアプリ