ZSE Moteur Inférence LLM Open-Source: Démarrage 3,9s

Ce que fait ZSE

ZSE (Z Server Engine) est un moteur d'inférence LLM open-source axé sur l'efficacité mémoire et les démarrages à froid rapides. Il résout le problème où l'exécution d'un modèle 32B nécessite normalement ~64 Go de VRAM, et où les démarrages à froid avec bitsandbytes NF4 prennent plus de 2 minutes au premier chargement.

Améliorations clés de performance

ZSE fait tenir les modèles 32B dans 19,3 Go de VRAM (réduction de 70 % par rapport au FP16) et fonctionne sur un seul A100-40GB. Pour les modèles 7B, il utilise 5,2 Go de VRAM (réduction de 63 %) et fonctionne sur des GPU grand public.

Les améliorations de démarrage à froid sont significatives : 3,9 s pour les modèles 7B et 21,4 s pour les modèles 32B avec le format .zse, contre 45 s et 120 s avec bitsandbytes. Ces benchmarks ont été vérifiés sur Modal A100-80GB en février 2026.

Approche technique

L'amélioration du démarrage à froid vient du format .zse qui stocke les poids pré-quantisés sous forme de safetensors mappés en mémoire. Cela élimine la quantification au moment du chargement et la conversion des poids, utilisant simplement mmap + transfert GPU. Sur les SSD NVMe, cela descend sous les 4 secondes pour les modèles 7B.

Installation et utilisation

Installez avec : pip install zllm-zse

Démarrage de base du serveur : zse serve Qwen/Qwen2.5-7B-Instruct

Pour des démarrages à froid rapides (conversion unique) :

zse convert Qwen/Qwen2.5-Coder-7B-Instruct -o qwen-7b.zse
zse serve qwen-7b.zse  # 3.9s à chaque fois

Fonctionnalités

Serveur API compatible OpenAI (remplacement direct)
CLI interactif (zse serve, zse chat, zse convert, zse hardware)
Tableau de bord web avec surveillance GPU en temps réel
Batching continu (débit multiplié par 3,45)
Support GGUF via fallback CPU llama.cpp — fonctionne sans GPU
Limitation de débit, journalisation d'audit, authentification par clé API

Composants de l'architecture

zAttention : Noyaux CUDA personnalisés pour l'attention paginée, flash et sparse
zQuantize : Quantification en précision mixte INT2-8 par tenseur
zKV : Cache KV quantifié avec précision glissante (économie mémoire x4)
zStream : Streaming de couches avec préchargement asynchrone (exécute 70B sur GPU 24 Go)
zOrchestrator : Recommandations intelligentes basées sur la mémoire LIBRE

Modes d'efficacité

speed : Débit maximum (production avec mémoire GPU abondante)
balanced : Bon débit, mémoire modérée (déploiement standard, par défaut)
memory : Faible mémoire, débit réduit (GPU grand public)
ultra : Économies de mémoire extrêmes (GPU 4 Go, ordinateurs portables)

Modèles pris en charge

Tout modèle HuggingFace transformers, safetensors, GGUF ou format .zse. Les choix populaires incluent Qwen, Llama, Mistral, Phi, Gemma, DeepSeek et Yi.

📖 Lire la source complète : HN LLM Tools