Hypura : Planificateur d'inférence LLM optimisé pour les niveaux de stockage des puces Apple Silicon

Ce que fait Hypura
Hypura est un planificateur d'inférence LLM adapté aux niveaux de stockage pour Apple Silicon qui place les tenseurs du modèle entre les niveaux GPU, RAM et NVMe en fonction des modèles d'accès, des coûts de bande passante et des capacités matérielles. Cela permet d'exécuter des modèles qui dépassent la mémoire physique sans faire planter le système.
Fonctionnalités clés et fonctionnement
Hypura lit les fichiers GGUF, profile votre matériel (ensemble de travail GPU, RAM, bande passante NVMe) et résout une optimisation de placement qui assigne chaque tenseur à un niveau :
- GPU (Metal) — Couches d'attention, normalisations, embeddings
- RAM — Couches en débordement qui ne rentrent pas dans l'ensemble de travail GPU, accédées via mmap
- NVMe — Couches restantes chargées à la demande via I/O direct (
F_NOCACHE + pread), préchargées avant la passe avant
Pour les modèles MoE comme Mixtral, Hypura implémente le streaming d'experts : seuls les tenseurs non-experts (~1 Go) restent sur GPU, tandis que les tenseurs d'experts sont streamés depuis le NVMe via un tampon de pool à la demande. Il inclut un cache de neurones avec un taux de réussite de 99,5 % qui élimine la plupart des I/O après l'échauffement, une interception du routeur pour identifier les experts sélectionnés, et un suivi de co-activation pour prédire quels experts seront activés ensuite pour un préchargement spéculatif.
Pour les modèles denses comme Llama 70B, il utilise le streaming FFN dense : l'attention + normalisations restent sur GPU (~8 Go) tandis que les tenseurs FFN (~32 Go) sont streamés depuis le NVMe via un tampon de pool à taille dynamique avec un préchargement anticipé ajusté.
Benchmarks de performance
Tous les benchmarks sur M1 Max, 32 Go de mémoire unifiée, ~5,1 Go/s de lecture séquentielle NVMe :
- Qwen 2.5 14B Q4_K_M (8,4 Go) : Mode résident complet, 21 tok/s (identique à llama.cpp)
- Mixtral 8x7B Q5_K_M (30,9 Go) : Mode streaming d'experts, 2,2 tok/s (llama.cpp OOM)
- Llama 3.3 70B Q4_K_M (39,6 Go) : Mode streaming FFN dense, 0,3 tok/s (llama.cpp OOM)
La taille du tampon de pool, la profondeur de préchargement et les budgets mémoire sont calculés automatiquement à partir de votre profil matériel — aucun réglage manuel nécessaire.
Installation
Hypura se compile depuis les sources avec Cargo. Vous aurez besoin de Rust 1.75+ et CMake.
📖 Lire la source complète : HN AI Agents
👀 See Also

Cadre de Recherche d'Emploi Open-Source Développé en Claude Code
Un développeur a créé un framework open-source de recherche d'emploi dans Claude Code qui gère le profilage structuré, le scraping automatisé des portails d'emploi, l'évaluation de compatibilité et un pipeline d'agents rédacteur-relecteur pour des candidatures personnalisées. Le système s'arrête avant la soumission et nécessite une relecture manuelle.

fr: Le-gars-du-savoir : Transformez votre bibliothèque en tuteur avec les compétences de Claude Code
Un ensemble de compétences Claude Code qui ingère vos livres PDF/EPUB localement et vous permet de poser des questions, d'apprendre sujet par sujet ou d'obtenir des antisèches — le tout avec des citations dans votre bibliothèque.

InsForge : Backend Postgres auto-hébergé avec intégration MCP pour agents de codage IA
InsForge est une alternative open source et auto-hébergée à Supabase qui se connecte à Claude Code via MCP, permettant aux agents IA de voir le schéma, les politiques et l'état du service. Il inclut PostgreSQL 16.4, PostgREST, Deno Runtime, l'authentification, le stockage et les fonctions edge.

Nexus : Protocole IA-à-IA Open Source avec Découverte, Confiance et Paiements
Nexus est un protocole auto-hébergé qui permet aux agents d'IA de se découvrir mutuellement, de négocier des conditions, de vérifier les réponses et de gérer des micropaiements sans intervention humaine. Il comprend cinq couches : découverte, confiance, protocole, routage et fédération, avec 66 tests et une licence MIT.