Krasis LLMランタイム、Llama.cppと比較して8.9倍のプリフィル速度と4.7倍のデコード速度向上を実現

パフォーマンスベンチマーク
Krasisは、同等のハードウェアで実行した場合、llama.cppと比較して大幅なパフォーマンス向上を示しています。PCIE 4.0に制限された単一の5090 GPUでは、Krasisは以下の結果を示します:
- 8.9倍高速なプレフィル速度
- 4.7倍高速なデコード速度
Qwen3-Coder-Nextの具体的なベンチマーク結果では、単一の16GB 5080 GPUで実行したKrasisは以下の性能を達成しました:
- プレフィル:1801トークン/秒
- デコード:26.8トークン/秒
これは、レイヤーオフローディングを使用して32GB 5090 GPUで実行したllama.cppを上回る性能です。
アーキテクチャの変更
Krasisの最新バージョンでは、デュアルフォーマットシステムを廃止し、現在はプレフィルとデコードの両方をGPU上で完全に実行し、各フェーズに異なる最適化戦略を適用しています。このアーキテクチャ変更により、以下の結果が得られました:
- CPU要件の削減
- システムRAMメモリ速度への依存度の低下
- 全体的なシステムRAM使用量の削減(以前の2.5倍モデル要件と比較して、量子化モデルと若干のオーバーヘッドのみが必要)
サポートモデルとパフォーマンス
現在サポートされているモデルと、単一の5090 GPU(PCIE 4.0)でのパフォーマンスは以下の通りです:
- Qwen3.5-35B-A3B:プレフィル4475、デコード109.1
- Qwen3-Coder-Next:プレフィル3560、デコード70.3
- Qwen3.5-122B-A10B:プレフィル2897、デコード27.7
- Qwen3-235B-A22B:プレフィル2124、デコード9.3
将来の開発計画
開発者は以下の計画を持っています:
- Nvidia Nemotronモデルのサポート追加、特に5080などのコンシューマーGPU向けのNemotron Superを対象
- リリース時に、より大規模なNemotronモデルのサポートを検討
- OpencodeとAiderのためのIDEおよびツールサポートの拡張
現在の機能
Krasisは現在以下の機能を提供しています:
- OpenAI互換サーバー
- ワンラインインストール
- GitHubでの利用可能
📖 Read the full source: r/LocalLLaMA
👀 See Also

Holaboss AI ランタイムが TypeScript に移行、永続的 MCP ポートを実装
Holaboss AIローカルエージェントランタイムは、TypeScriptのみを使用するようにリファクタリングされ、Pythonの依存関係を排除し、バンドルサイズを削減しました。再起動時の衝突を防ぐため、MCPサーバーポートをUNIQUE(port)制約付きのSQLiteに永続化するようになりました。

Klaw.sh: AIエージェントのためのKubernetesスタイルオーケストレーション
Klaw.shは、KubernetesをモデルにしたAIエージェントデプロイメントのオーケストレーションソリューションを提供します。クラスター、ネームスペース、チャネルによる管理を簡素化し、Node.jsからGoへの書き換えによりメモリ削減を実現しています。

あなたのClaude Code UI出力がずれる理由と構造化スペックがそれを修正する方法
開発者が解説:Claude CodeのUI出力が一貫しない原因はプロンプトの問題ではなく、フォーマットの問題である。正確な16進数カラーコード、フォントウェイト、間隔、画面状態、トランジションを指定することで出力のばらつきを排除できる。また、スクリーン録画を構造化された仕様に変換するMCPサーバーをオープンソース化した。

Sx: AIスキル、MCP、コマンドのためのオープンソースパッケージマネージャー
Sxは、スキル、MCP設定、コマンド、フック、エージェントなど、AIアセットを管理するプライベートnpm的なパッケージマネージャーです。チームはAI設定を任意のAIクライアント(Claude Code、Cursor、Copilot、Geminiなど)間で共有、バージョン管理、スコープ指定できます。