Hypura : Planificateur d'inférence LLM optimisé pour les niveaux de stockage des puces Apple Silicon

✍️ OpenClawRadar📅 Publié: March 24, 2026🔗 Source
Hypura : Planificateur d'inférence LLM optimisé pour les niveaux de stockage des puces Apple Silicon
Ad

Ce que fait Hypura

Hypura est un planificateur d'inférence LLM adapté aux niveaux de stockage pour Apple Silicon qui place les tenseurs du modèle entre les niveaux GPU, RAM et NVMe en fonction des modèles d'accès, des coûts de bande passante et des capacités matérielles. Cela permet d'exécuter des modèles qui dépassent la mémoire physique sans faire planter le système.

Fonctionnalités clés et fonctionnement

Hypura lit les fichiers GGUF, profile votre matériel (ensemble de travail GPU, RAM, bande passante NVMe) et résout une optimisation de placement qui assigne chaque tenseur à un niveau :

  • GPU (Metal) — Couches d'attention, normalisations, embeddings
  • RAM — Couches en débordement qui ne rentrent pas dans l'ensemble de travail GPU, accédées via mmap
  • NVMe — Couches restantes chargées à la demande via I/O direct (F_NOCACHE + pread), préchargées avant la passe avant

Pour les modèles MoE comme Mixtral, Hypura implémente le streaming d'experts : seuls les tenseurs non-experts (~1 Go) restent sur GPU, tandis que les tenseurs d'experts sont streamés depuis le NVMe via un tampon de pool à la demande. Il inclut un cache de neurones avec un taux de réussite de 99,5 % qui élimine la plupart des I/O après l'échauffement, une interception du routeur pour identifier les experts sélectionnés, et un suivi de co-activation pour prédire quels experts seront activés ensuite pour un préchargement spéculatif.

Pour les modèles denses comme Llama 70B, il utilise le streaming FFN dense : l'attention + normalisations restent sur GPU (~8 Go) tandis que les tenseurs FFN (~32 Go) sont streamés depuis le NVMe via un tampon de pool à taille dynamique avec un préchargement anticipé ajusté.

Ad

Benchmarks de performance

Tous les benchmarks sur M1 Max, 32 Go de mémoire unifiée, ~5,1 Go/s de lecture séquentielle NVMe :

  • Qwen 2.5 14B Q4_K_M (8,4 Go) : Mode résident complet, 21 tok/s (identique à llama.cpp)
  • Mixtral 8x7B Q5_K_M (30,9 Go) : Mode streaming d'experts, 2,2 tok/s (llama.cpp OOM)
  • Llama 3.3 70B Q4_K_M (39,6 Go) : Mode streaming FFN dense, 0,3 tok/s (llama.cpp OOM)

La taille du tampon de pool, la profondeur de préchargement et les budgets mémoire sont calculés automatiquement à partir de votre profil matériel — aucun réglage manuel nécessaire.

Installation

Hypura se compile depuis les sources avec Cargo. Vous aurez besoin de Rust 1.75+ et CMake.

📖 Lire la source complète : HN AI Agents

Ad

👀 See Also

Cadre de Recherche d'Emploi Open-Source Développé en Claude Code
Tools

Cadre de Recherche d'Emploi Open-Source Développé en Claude Code

Un développeur a créé un framework open-source de recherche d'emploi dans Claude Code qui gère le profilage structuré, le scraping automatisé des portails d'emploi, l'évaluation de compatibilité et un pipeline d'agents rédacteur-relecteur pour des candidatures personnalisées. Le système s'arrête avant la soumission et nécessite une relecture manuelle.

OpenClawRadar
fr: Le-gars-du-savoir : Transformez votre bibliothèque en tuteur avec les compétences de Claude Code
Tools

fr: Le-gars-du-savoir : Transformez votre bibliothèque en tuteur avec les compétences de Claude Code

Un ensemble de compétences Claude Code qui ingère vos livres PDF/EPUB localement et vous permet de poser des questions, d'apprendre sujet par sujet ou d'obtenir des antisèches — le tout avec des citations dans votre bibliothèque.

OpenClawRadar
InsForge : Backend Postgres auto-hébergé avec intégration MCP pour agents de codage IA
Tools

InsForge : Backend Postgres auto-hébergé avec intégration MCP pour agents de codage IA

InsForge est une alternative open source et auto-hébergée à Supabase qui se connecte à Claude Code via MCP, permettant aux agents IA de voir le schéma, les politiques et l'état du service. Il inclut PostgreSQL 16.4, PostgREST, Deno Runtime, l'authentification, le stockage et les fonctions edge.

OpenClawRadar
Nexus : Protocole IA-à-IA Open Source avec Découverte, Confiance et Paiements
Tools

Nexus : Protocole IA-à-IA Open Source avec Découverte, Confiance et Paiements

Nexus est un protocole auto-hébergé qui permet aux agents d'IA de se découvrir mutuellement, de négocier des conditions, de vérifier les réponses et de gérer des micropaiements sans intervention humaine. Il comprend cinq couches : découverte, confiance, protocole, routage et fédération, avec 66 tests et une licence MIT.

OpenClawRadar