ZSE: Open-Source-LLM-Inferenz-Engine mit 3,9-Sekunden-Kaltstarts

✍️ OpenClawRadar📅 Veröffentlicht: 26. Februar 2026🔗 Source
ZSE: Open-Source-LLM-Inferenz-Engine mit 3,9-Sekunden-Kaltstarts
Ad

Was ZSE leistet

ZSE (Z Server Engine) ist eine Open-Source-Inferenz-Engine für LLMs, die auf Speichereffizienz und schnelle Kaltstarts ausgelegt ist. Sie löst das Problem, dass das Ausführen eines 32B-Modells normalerweise ~64GB VRAM erfordert und Kaltstarts mit bitsandbytes NF4 beim ersten Laden 2+ Minuten dauern.

Wichtige Leistungsverbesserungen

ZSE bringt 32B-Modelle in 19,3GB VRAM unter (70 % Reduktion gegenüber FP16) und läuft auf einer einzelnen A100-40GB. Für 7B-Modelle verwendet es 5,2GB VRAM (63 % Reduktion) und läuft auf Consumer-GPUs.

Die Verbesserungen bei Kaltstarts sind erheblich: 3,9 s für 7B-Modelle und 21,4 s für 32B-Modelle mit dem .zse-Format, verglichen mit 45 s und 120 s mit bitsandbytes. Diese Benchmarks wurden im Februar 2026 auf Modal A100-80GB verifiziert.

Technischer Ansatz

Die Verbesserung der Kaltstarts kommt vom .zse-Format, das vorquantisierte Gewichte als speichergemappte Safetensors speichert. Dies eliminiert die Quantisierung zur Ladezeit und die Gewichtskonvertierung und verwendet nur mmap + GPU-Transfer. Auf NVMe-SSDs erreicht dies unter 4 Sekunden für 7B-Modelle.

Installation und Verwendung

Installation mit: pip install zllm-zse

Grundlegender Serverstart: zse serve Qwen/Qwen2.5-7B-Instruct

Für schnelle Kaltstarts (einmalige Konvertierung):

zse convert Qwen/Qwen2.5-Coder-7B-Instruct -o qwen-7b.zse
zse serve qwen-7b.zse  # 3.9s jedes Mal
Ad

Funktionen

  • OpenAI-kompatibler API-Server (Drop-in-Ersatz)
  • Interaktive CLI (zse serve, zse chat, zse convert, zse hardware)
  • Web-Dashboard mit Echtzeit-GPU-Überwachung
  • Kontinuierliches Batching (3,45-facher Durchsatz)
  • GGUF-Unterstützung via llama.cpp CPU-Fallback — funktioniert ohne GPU
  • Ratenbegrenzung, Audit-Logging, API-Schlüssel-Authentifizierung

Architekturkomponenten

  • zAttention: Benutzerdefinierte CUDA-Kernel für gepagte, Flash- und Sparse-Attention
  • zQuantize: Per-Tensor INT2-8 Mixed-Precision-Quantisierung
  • zKV: Quantisierter KV-Cache mit gleitender Präzision (4-fache Speichereinsparung)
  • zStream: Layer-Streaming mit asynchronem Prefetch (70B auf 24GB GPU ausführen)
  • zOrchestrator: Intelligente Empfehlungen basierend auf FREIEM Speicher

Effizienzmodi

  • speed: Maximaler Durchsatz (Produktion mit reichlich GPU-Speicher)
  • balanced: Guter Durchsatz, moderater Speicher (Standardbereitstellung, Standard)
  • memory: Geringer Speicher, reduzierter Durchsatz (Consumer-GPUs)
  • ultra: Extreme Speichereinsparung (4GB GPUs, Laptops)

Unterstützte Modelle

Jedes HuggingFace-Transformers-Modell, Safetensors, GGUF oder .zse-Format. Beliebte Auswahlmöglichkeiten sind Qwen, Llama, Mistral, Phi, Gemma, DeepSeek und Yi.

📖 Read the full source: HN LLM Tools

Ad

👀 Siehe auch