Krasis LLMランタイム、Llama.cppと比較して8.9倍のプリフィル速度と4.7倍のデコード速度向上を実現

✍️ OpenClawRadar📅 公開日: March 17, 2026🔗 Source
Krasis LLMランタイム、Llama.cppと比較して8.9倍のプリフィル速度と4.7倍のデコード速度向上を実現
Ad

パフォーマンスベンチマーク

Krasisは、同等のハードウェアで実行した場合、llama.cppと比較して大幅なパフォーマンス向上を示しています。PCIE 4.0に制限された単一の5090 GPUでは、Krasisは以下の結果を示します:

  • 8.9倍高速なプレフィル速度
  • 4.7倍高速なデコード速度

Qwen3-Coder-Nextの具体的なベンチマーク結果では、単一の16GB 5080 GPUで実行したKrasisは以下の性能を達成しました:

  • プレフィル:1801トークン/秒
  • デコード:26.8トークン/秒

これは、レイヤーオフローディングを使用して32GB 5090 GPUで実行したllama.cppを上回る性能です。

アーキテクチャの変更

Krasisの最新バージョンでは、デュアルフォーマットシステムを廃止し、現在はプレフィルとデコードの両方をGPU上で完全に実行し、各フェーズに異なる最適化戦略を適用しています。このアーキテクチャ変更により、以下の結果が得られました:

  • CPU要件の削減
  • システムRAMメモリ速度への依存度の低下
  • 全体的なシステムRAM使用量の削減(以前の2.5倍モデル要件と比較して、量子化モデルと若干のオーバーヘッドのみが必要)

サポートモデルとパフォーマンス

現在サポートされているモデルと、単一の5090 GPU(PCIE 4.0)でのパフォーマンスは以下の通りです:

  • Qwen3.5-35B-A3B:プレフィル4475、デコード109.1
  • Qwen3-Coder-Next:プレフィル3560、デコード70.3
  • Qwen3.5-122B-A10B:プレフィル2897、デコード27.7
  • Qwen3-235B-A22B:プレフィル2124、デコード9.3

将来の開発計画

開発者は以下の計画を持っています:

  • Nvidia Nemotronモデルのサポート追加、特に5080などのコンシューマーGPU向けのNemotron Superを対象
  • リリース時に、より大規模なNemotronモデルのサポートを検討
  • OpencodeとAiderのためのIDEおよびツールサポートの拡張

現在の機能

Krasisは現在以下の機能を提供しています:

  • OpenAI互換サーバー
  • ワンラインインストール
  • GitHubでの利用可能

📖 Read the full source: r/LocalLLaMA

Ad

👀 See Also

Holaboss AI ランタイムが TypeScript に移行、永続的 MCP ポートを実装
Tools

Holaboss AI ランタイムが TypeScript に移行、永続的 MCP ポートを実装

Holaboss AIローカルエージェントランタイムは、TypeScriptのみを使用するようにリファクタリングされ、Pythonの依存関係を排除し、バンドルサイズを削減しました。再起動時の衝突を防ぐため、MCPサーバーポートをUNIQUE(port)制約付きのSQLiteに永続化するようになりました。

OpenClawRadar
Klaw.sh: AIエージェントのためのKubernetesスタイルオーケストレーション
Tools

Klaw.sh: AIエージェントのためのKubernetesスタイルオーケストレーション

Klaw.shは、KubernetesをモデルにしたAIエージェントデプロイメントのオーケストレーションソリューションを提供します。クラスター、ネームスペース、チャネルによる管理を簡素化し、Node.jsからGoへの書き換えによりメモリ削減を実現しています。

OpenClawRadar
あなたのClaude Code UI出力がずれる理由と構造化スペックがそれを修正する方法
Tools

あなたのClaude Code UI出力がずれる理由と構造化スペックがそれを修正する方法

開発者が解説:Claude CodeのUI出力が一貫しない原因はプロンプトの問題ではなく、フォーマットの問題である。正確な16進数カラーコード、フォントウェイト、間隔、画面状態、トランジションを指定することで出力のばらつきを排除できる。また、スクリーン録画を構造化された仕様に変換するMCPサーバーをオープンソース化した。

OpenClawRadar
Sx: AIスキル、MCP、コマンドのためのオープンソースパッケージマネージャー
Tools

Sx: AIスキル、MCP、コマンドのためのオープンソースパッケージマネージャー

Sxは、スキル、MCP設定、コマンド、フック、エージェントなど、AIアセットを管理するプライベートnpm的なパッケージマネージャーです。チームはAI設定を任意のAIクライアント(Claude Code、Cursor、Copilot、Geminiなど)間で共有、バージョン管理、スコープ指定できます。

OpenClawRadar