Planificateur Inférence LLM Apple Silicon: Hypura vs llama.cpp

Ce que fait Hypura

Hypura est un planificateur d'inférence LLM adapté aux niveaux de stockage pour Apple Silicon qui place les tenseurs du modèle entre les niveaux GPU, RAM et NVMe en fonction des modèles d'accès, des coûts de bande passante et des capacités matérielles. Cela permet d'exécuter des modèles qui dépassent la mémoire physique sans faire planter le système.

Fonctionnalités clés et fonctionnement

Hypura lit les fichiers GGUF, profile votre matériel (ensemble de travail GPU, RAM, bande passante NVMe) et résout une optimisation de placement qui assigne chaque tenseur à un niveau :

GPU (Metal) — Couches d'attention, normalisations, embeddings
RAM — Couches en débordement qui ne rentrent pas dans l'ensemble de travail GPU, accédées via mmap
NVMe — Couches restantes chargées à la demande via I/O direct (F_NOCACHE + pread), préchargées avant la passe avant

Pour les modèles MoE comme Mixtral, Hypura implémente le streaming d'experts : seuls les tenseurs non-experts (~1 Go) restent sur GPU, tandis que les tenseurs d'experts sont streamés depuis le NVMe via un tampon de pool à la demande. Il inclut un cache de neurones avec un taux de réussite de 99,5 % qui élimine la plupart des I/O après l'échauffement, une interception du routeur pour identifier les experts sélectionnés, et un suivi de co-activation pour prédire quels experts seront activés ensuite pour un préchargement spéculatif.

Pour les modèles denses comme Llama 70B, il utilise le streaming FFN dense : l'attention + normalisations restent sur GPU (~8 Go) tandis que les tenseurs FFN (~32 Go) sont streamés depuis le NVMe via un tampon de pool à taille dynamique avec un préchargement anticipé ajusté.

Benchmarks de performance

Tous les benchmarks sur M1 Max, 32 Go de mémoire unifiée, ~5,1 Go/s de lecture séquentielle NVMe :

Qwen 2.5 14B Q4_K_M (8,4 Go) : Mode résident complet, 21 tok/s (identique à llama.cpp)
Mixtral 8x7B Q5_K_M (30,9 Go) : Mode streaming d'experts, 2,2 tok/s (llama.cpp OOM)
Llama 3.3 70B Q4_K_M (39,6 Go) : Mode streaming FFN dense, 0,3 tok/s (llama.cpp OOM)

La taille du tampon de pool, la profondeur de préchargement et les budgets mémoire sont calculés automatiquement à partir de votre profil matériel — aucun réglage manuel nécessaire.

Installation

Hypura se compile depuis les sources avec Cargo. Vous aurez besoin de Rust 1.75+ et CMake.

📖 Lire la source complète : HN AI Agents

Hypura : Planificateur d'inférence LLM optimisé pour les niveaux de stockage des puces Apple Silicon

Ce que fait Hypura

Fonctionnalités clés et fonctionnement

Benchmarks de performance

Installation

👀 See Also

Leanstral : Agent de Code Open-Source pour Lean 4 et l'Ingénierie de Preuves Formelles

LumaBrowser : Le navigateur Electron délègue l'analyse DOM aux LLM locaux pour les agents IA

Flux de travail de développement piloté par les spécifications pour Claude Code : décomposition, effacement du contexte et contrôle des coûts

Construire un langage de programmation avec Claude Code : l'expérience Cutlet