Hypura:Apple Silicon向けストレージ階層対応LLM推論スケジューラー

Hypuraの機能
Hypuraは、Apple Silicon向けのストレージ階層を考慮したLLM推論スケジューラで、アクセスパターン、帯域幅コスト、ハードウェア性能に基づいてモデルのテンソルをGPU、RAM、NVMeの階層に配置します。これにより、物理メモリを超えるモデルをシステムクラッシュなしで実行できます。
主な特徴と仕組み
HypuraはGGUFファイルを読み込み、ハードウェア(GPUワーキングセット、RAM、NVMe帯域幅)をプロファイリングし、すべてのテンソルを階層に割り当てる配置最適化問題を解決します:
- GPU(Metal) — アテンション層、正規化層、埋め込み層
- RAM — GPUワーキングセットに収まらないオーバーフロー層(mmap経由でアクセス)
- NVMe — 残りの層(
F_NOCACHE + preadによるダイレクトI/Oでオンデマンドロード、フォワードパス前にプリフェッチ)
MixtralのようなMoEモデルでは、Hypuraはエキスパートストリーミングを実装:非エキスパートテンソル(約1 GB)のみがGPUに残り、エキスパートテンソルはオンデマンドでNVMeからプールバッファ経由でストリーミングされます。ウォームアップ後はほとんどのI/Oを排除する99.5%ヒット率のニューロンキャッシュ、選択されたエキスパートを識別するルーターインターセプト、次に起動するエキスパートを予測するための共活性化トラッキングによる投機的プリフェッチを含みます。
Llama 70Bのような密なモデルでは、密なFFNストリーミングを使用:アテンション+正規化層(約8 GB)はGPUに残り、FFNテンソル(約32 GB)はスケーリングされたプリフェッチ先読みを備えた動的サイズのプールバッファ経由でNVMeからストリーミングされます。
パフォーマンスベンチマーク
すべてのベンチマークはM1 Max、32 GB統一メモリ、約5.1 GB/s NVMeシーケンシャルリードで実施:
- Qwen 2.5 14B Q4_K_M(8.4 GB):フル常駐モード、21 tok/s(llama.cppと同じ)
- Mixtral 8x7B Q5_K_M(30.9 GB):エキスパートストリーミングモード、2.2 tok/s(llama.cppはOOM)
- Llama 3.3 70B Q4_K_M(39.6 GB):密なFFNストリーミングモード、0.3 tok/s(llama.cppはOOM)
プールバッファサイズ、プリフェッチ深度、メモリ予算はハードウェアプロファイルから自動計算されるため、手動調整は不要です。
インストール方法
HypuraはCargoでソースからビルドします。Rust 1.75以上とCMakeが必要です。
📖 Read the full source: HN AI Agents
👀 See Also

Driftwatch V3 リリース:AI支援によるコードベース監視ツール
Driftwatch V3は、約9,000行のコードと160ドルのAPIクレジットを要する5〜6日間のビルドを経て、公開リポジトリとして利用可能になりました。このブラウザ内ツールは、マークダウンファイルの問題を追跡し、矛盾する指示にフラグを立て、コスト追跡と推奨事項を提供します。

オープンソースGrafanaダッシュボード、OpenTelemetry経由でClaude Codeのコストと使用状況を追跡
あるSREが、Claude Codeの支出、トークン使用量、キャッシュヒット率、編集判断を可視化する無料のGrafanaダッシュボードを構築しました。OpenTelemetryメトリクスをPrometheus互換のバックエンドに取り込むことで実現しています。

OCTO-VEC:24体のAIエージェントを擁するオープンソースの仮想ソフトウェア企業
OCTO-VECは、9つのデフォルトAIエージェントと15人の雇用可能なスペシャリストを備えたソフトウェア会社をシミュレートするオープンソースのTypeScript/SQLiteプロジェクトです。自動化されたセキュリティスキャン、エージェントごとのgitアイデンティティ、22以上のLLMプロバイダーへの対応を含みます。

Forge:オープンソースのClaudeコードプラグインがガバナンスとテストゲートを追加
ForgeはオープンソースのClaude Codeプラグインで、ファイルロック、自動テストゲート、22のガバナンスエージェントを追加し、AI生成コードワークフローでの衝突やドリフトを防止します。MITライセンスで、Claudeプラグインマーケットプレイスからインストールできます。