Hypura：Apple Silicon向けストレージ階層推論スケジューラー

Hypuraの機能

Hypuraは、Apple Silicon向けのストレージ階層を考慮したLLM推論スケジューラで、アクセスパターン、帯域幅コスト、ハードウェア性能に基づいてモデルのテンソルをGPU、RAM、NVMeの階層に配置します。これにより、物理メモリを超えるモデルをシステムクラッシュなしで実行できます。

主な特徴と仕組み

HypuraはGGUFファイルを読み込み、ハードウェア（GPUワーキングセット、RAM、NVMe帯域幅）をプロファイリングし、すべてのテンソルを階層に割り当てる配置最適化問題を解決します：

GPU（Metal） — アテンション層、正規化層、埋め込み層
RAM — GPUワーキングセットに収まらないオーバーフロー層（mmap経由でアクセス）
NVMe — 残りの層（F_NOCACHE + preadによるダイレクトI/Oでオンデマンドロード、フォワードパス前にプリフェッチ）

MixtralのようなMoEモデルでは、Hypuraはエキスパートストリーミングを実装：非エキスパートテンソル（約1 GB）のみがGPUに残り、エキスパートテンソルはオンデマンドでNVMeからプールバッファ経由でストリーミングされます。ウォームアップ後はほとんどのI/Oを排除する99.5%ヒット率のニューロンキャッシュ、選択されたエキスパートを識別するルーターインターセプト、次に起動するエキスパートを予測するための共活性化トラッキングによる投機的プリフェッチを含みます。

Llama 70Bのような密なモデルでは、密なFFNストリーミングを使用：アテンション＋正規化層（約8 GB）はGPUに残り、FFNテンソル（約32 GB）はスケーリングされたプリフェッチ先読みを備えた動的サイズのプールバッファ経由でNVMeからストリーミングされます。

パフォーマンスベンチマーク

すべてのベンチマークはM1 Max、32 GB統一メモリ、約5.1 GB/s NVMeシーケンシャルリードで実施：

Qwen 2.5 14B Q4_K_M（8.4 GB）：フル常駐モード、21 tok/s（llama.cppと同じ）
Mixtral 8x7B Q5_K_M（30.9 GB）：エキスパートストリーミングモード、2.2 tok/s（llama.cppはOOM）
Llama 3.3 70B Q4_K_M（39.6 GB）：密なFFNストリーミングモード、0.3 tok/s（llama.cppはOOM）

プールバッファサイズ、プリフェッチ深度、メモリ予算はハードウェアプロファイルから自動計算されるため、手動調整は不要です。

インストール方法

HypuraはCargoでソースからビルドします。Rust 1.75以上とCMakeが必要です。

📖 Read the full source: HN AI Agents

Hypura：Apple Silicon向けストレージ階層対応LLM推論スケジューラー

Hypuraの機能

主な特徴と仕組み

パフォーマンスベンチマーク

インストール方法

👀 See Also

lazyclaude: Claudeコード設定管理のためのTUI

オフグリッドモバイルアプリ、オンデバイスAIツールを追加し3倍の速度向上を実現

DecisionNode: セマンティック意思決定ストレージのためのCLIとMCPサーバー

Claudeコードのメモリリーク修正 - Linuxホームラボ向け