ZSE: 3,9-Sekunden-Kaltstarts mit Open-Source-LLM-Engine

Was ZSE leistet

ZSE (Z Server Engine) ist eine Open-Source-Inferenz-Engine für LLMs, die auf Speichereffizienz und schnelle Kaltstarts ausgelegt ist. Sie löst das Problem, dass das Ausführen eines 32B-Modells normalerweise ~64GB VRAM erfordert und Kaltstarts mit bitsandbytes NF4 beim ersten Laden 2+ Minuten dauern.

Wichtige Leistungsverbesserungen

ZSE bringt 32B-Modelle in 19,3GB VRAM unter (70 % Reduktion gegenüber FP16) und läuft auf einer einzelnen A100-40GB. Für 7B-Modelle verwendet es 5,2GB VRAM (63 % Reduktion) und läuft auf Consumer-GPUs.

Die Verbesserungen bei Kaltstarts sind erheblich: 3,9 s für 7B-Modelle und 21,4 s für 32B-Modelle mit dem .zse-Format, verglichen mit 45 s und 120 s mit bitsandbytes. Diese Benchmarks wurden im Februar 2026 auf Modal A100-80GB verifiziert.

Technischer Ansatz

Die Verbesserung der Kaltstarts kommt vom .zse-Format, das vorquantisierte Gewichte als speichergemappte Safetensors speichert. Dies eliminiert die Quantisierung zur Ladezeit und die Gewichtskonvertierung und verwendet nur mmap + GPU-Transfer. Auf NVMe-SSDs erreicht dies unter 4 Sekunden für 7B-Modelle.

Installation und Verwendung

Installation mit: pip install zllm-zse

Grundlegender Serverstart: zse serve Qwen/Qwen2.5-7B-Instruct

Für schnelle Kaltstarts (einmalige Konvertierung):

zse convert Qwen/Qwen2.5-Coder-7B-Instruct -o qwen-7b.zse
zse serve qwen-7b.zse  # 3.9s jedes Mal

Funktionen

OpenAI-kompatibler API-Server (Drop-in-Ersatz)
Interaktive CLI (zse serve, zse chat, zse convert, zse hardware)
Web-Dashboard mit Echtzeit-GPU-Überwachung
Kontinuierliches Batching (3,45-facher Durchsatz)
GGUF-Unterstützung via llama.cpp CPU-Fallback — funktioniert ohne GPU
Ratenbegrenzung, Audit-Logging, API-Schlüssel-Authentifizierung

Architekturkomponenten

zAttention: Benutzerdefinierte CUDA-Kernel für gepagte, Flash- und Sparse-Attention
zQuantize: Per-Tensor INT2-8 Mixed-Precision-Quantisierung
zKV: Quantisierter KV-Cache mit gleitender Präzision (4-fache Speichereinsparung)
zStream: Layer-Streaming mit asynchronem Prefetch (70B auf 24GB GPU ausführen)
zOrchestrator: Intelligente Empfehlungen basierend auf FREIEM Speicher

Effizienzmodi

speed: Maximaler Durchsatz (Produktion mit reichlich GPU-Speicher)
balanced: Guter Durchsatz, moderater Speicher (Standardbereitstellung, Standard)
memory: Geringer Speicher, reduzierter Durchsatz (Consumer-GPUs)
ultra: Extreme Speichereinsparung (4GB GPUs, Laptops)

Unterstützte Modelle

Jedes HuggingFace-Transformers-Modell, Safetensors, GGUF oder .zse-Format. Beliebte Auswahlmöglichkeiten sind Qwen, Llama, Mistral, Phi, Gemma, DeepSeek und Yi.

📖 Read the full source: HN LLM Tools