Krasis LLMランタイム、Llama.cppと比較して8.9倍のプリフィル速度と4.7倍のデコード速度向上を実現

✍️ OpenClawRadar📅 公開日: March 17, 2026🔗 Source

Krasis LLMランタイム、Llama.cppと比較して8.9倍のプリフィル速度と4.7倍のデコード速度向上を実現

Ad

パフォーマンスベンチマーク

Krasisは、同等のハードウェアで実行した場合、llama.cppと比較して大幅なパフォーマンス向上を示しています。PCIE 4.0に制限された単一の5090 GPUでは、Krasisは以下の結果を示します：

8.9倍高速なプレフィル速度
4.7倍高速なデコード速度

Qwen3-Coder-Nextの具体的なベンチマーク結果では、単一の16GB 5080 GPUで実行したKrasisは以下の性能を達成しました：

プレフィル：1801トークン/秒
デコード：26.8トークン/秒

これは、レイヤーオフローディングを使用して32GB 5090 GPUで実行したllama.cppを上回る性能です。

アーキテクチャの変更

Krasisの最新バージョンでは、デュアルフォーマットシステムを廃止し、現在はプレフィルとデコードの両方をGPU上で完全に実行し、各フェーズに異なる最適化戦略を適用しています。このアーキテクチャ変更により、以下の結果が得られました：

CPU要件の削減
システムRAMメモリ速度への依存度の低下
全体的なシステムRAM使用量の削減（以前の2.5倍モデル要件と比較して、量子化モデルと若干のオーバーヘッドのみが必要）

サポートモデルとパフォーマンス

現在サポートされているモデルと、単一の5090 GPU（PCIE 4.0）でのパフォーマンスは以下の通りです：

Qwen3.5-35B-A3B：プレフィル4475、デコード109.1
Qwen3-Coder-Next：プレフィル3560、デコード70.3
Qwen3.5-122B-A10B：プレフィル2897、デコード27.7
Qwen3-235B-A22B：プレフィル2124、デコード9.3

将来の開発計画

開発者は以下の計画を持っています：

Nvidia Nemotronモデルのサポート追加、特に5080などのコンシューマーGPU向けのNemotron Superを対象
リリース時に、より大規模なNemotronモデルのサポートを検討
OpencodeとAiderのためのIDEおよびツールサポートの拡張

現在の機能

Krasisは現在以下の機能を提供しています：

OpenAI互換サーバー
ワンラインインストール
GitHubでの利用可能

📖 Read the full source: r/LocalLLaMA

Ad

👀 See Also

4つのクロードコードフックがAI執筆コピーの声とトーン一貫性を強化

4つのクロードコードフックがAI執筆コピーの声とトーン一貫性を強化

開発者は、AIエージェントがコピーを書く際の声のトーンと一貫性を強制するために、4つのClaude Codeフックを使用したシステムを実装しました。このアプローチは、AI生成コンテンツが控えめな表現や一般的な言語を通じて徐々にブランドから逸脱する問題に対処しています。

Mar 9, 2026, 11:45 PM UTC

マニフェストルーターがOpenClawモデル管理にZAIサブスクリプションサポートを追加

マニフェストルーターがOpenClawモデル管理にZAIサブスクリプションサポートを追加

ManifestルーターがZAIサブスクリプションをサポートし、すべてのZAIモデルがルーティング階層に表示され、リクエストごとに自動的に適切なモデルが選択されるようになりました。このツールはベータ版で、無料、オープンソースであり、エージェントごと、メッセージごと、モデルごとのコストを追跡するダッシュボードが含まれています。

Apr 16, 2026, 04:45 PM UTC

新しい構造化データAPIがLLMエージェント向けにサブスクリプション価格を提供

新しい構造化データAPIがLLMエージェント向けにサブスクリプション価格を提供

開発者が、ストリーミングプラットフォーム、ライドシェアサービス、デートアプリ、その他のサブスクリプションベースのプラットフォームにわたるサブスクリプション価格を正規化する構造化データAPIをリリースしました。このAPIは、一貫したJSONスキーマ、利用可能な場合は地域対応の価格設定、およびスクレイピングなしでLLMエージェントが利用できるMCP互換エンドポイントを提供します。

Feb 28, 2026, 10:45 AM UTC

チームメモリーMCP：Claudeコード用のオープンソース共有メモリーとベイジアン信頼度スコアリング

チームメモリーMCP：Claudeコード用のオープンソース共有メモリーとベイジアン信頼度スコアリング

Team Memory MCPは、ベイジアン信頼度スコアリングを備えたClaude Code用の共有チームメモリを提供するオープンソースツールです。Beta-Bernoulliモデルを使用してパターンをランク付けし、90日の半減期を持つ時間的減衰を含み、単一のコマンドでClaude Codeに追加できます。

Mar 17, 2026, 03:45 PM UTC