ZSE: Open-Source-LLM-Inferenz-Engine mit 3,9-Sekunden-Kaltstarts

Was ZSE leistet
ZSE (Z Server Engine) ist eine Open-Source-Inferenz-Engine für LLMs, die auf Speichereffizienz und schnelle Kaltstarts ausgelegt ist. Sie löst das Problem, dass das Ausführen eines 32B-Modells normalerweise ~64GB VRAM erfordert und Kaltstarts mit bitsandbytes NF4 beim ersten Laden 2+ Minuten dauern.
Wichtige Leistungsverbesserungen
ZSE bringt 32B-Modelle in 19,3GB VRAM unter (70 % Reduktion gegenüber FP16) und läuft auf einer einzelnen A100-40GB. Für 7B-Modelle verwendet es 5,2GB VRAM (63 % Reduktion) und läuft auf Consumer-GPUs.
Die Verbesserungen bei Kaltstarts sind erheblich: 3,9 s für 7B-Modelle und 21,4 s für 32B-Modelle mit dem .zse-Format, verglichen mit 45 s und 120 s mit bitsandbytes. Diese Benchmarks wurden im Februar 2026 auf Modal A100-80GB verifiziert.
Technischer Ansatz
Die Verbesserung der Kaltstarts kommt vom .zse-Format, das vorquantisierte Gewichte als speichergemappte Safetensors speichert. Dies eliminiert die Quantisierung zur Ladezeit und die Gewichtskonvertierung und verwendet nur mmap + GPU-Transfer. Auf NVMe-SSDs erreicht dies unter 4 Sekunden für 7B-Modelle.
Installation und Verwendung
Installation mit: pip install zllm-zse
Grundlegender Serverstart: zse serve Qwen/Qwen2.5-7B-Instruct
Für schnelle Kaltstarts (einmalige Konvertierung):
zse convert Qwen/Qwen2.5-Coder-7B-Instruct -o qwen-7b.zse zse serve qwen-7b.zse # 3.9s jedes Mal
Funktionen
- OpenAI-kompatibler API-Server (Drop-in-Ersatz)
- Interaktive CLI (zse serve, zse chat, zse convert, zse hardware)
- Web-Dashboard mit Echtzeit-GPU-Überwachung
- Kontinuierliches Batching (3,45-facher Durchsatz)
- GGUF-Unterstützung via llama.cpp CPU-Fallback — funktioniert ohne GPU
- Ratenbegrenzung, Audit-Logging, API-Schlüssel-Authentifizierung
Architekturkomponenten
- zAttention: Benutzerdefinierte CUDA-Kernel für gepagte, Flash- und Sparse-Attention
- zQuantize: Per-Tensor INT2-8 Mixed-Precision-Quantisierung
- zKV: Quantisierter KV-Cache mit gleitender Präzision (4-fache Speichereinsparung)
- zStream: Layer-Streaming mit asynchronem Prefetch (70B auf 24GB GPU ausführen)
- zOrchestrator: Intelligente Empfehlungen basierend auf FREIEM Speicher
Effizienzmodi
- speed: Maximaler Durchsatz (Produktion mit reichlich GPU-Speicher)
- balanced: Guter Durchsatz, moderater Speicher (Standardbereitstellung, Standard)
- memory: Geringer Speicher, reduzierter Durchsatz (Consumer-GPUs)
- ultra: Extreme Speichereinsparung (4GB GPUs, Laptops)
Unterstützte Modelle
Jedes HuggingFace-Transformers-Modell, Safetensors, GGUF oder .zse-Format. Beliebte Auswahlmöglichkeiten sind Qwen, Llama, Mistral, Phi, Gemma, DeepSeek und Yi.
📖 Read the full source: HN LLM Tools
👀 Siehe auch

AbsolutelySkilled Registry fügt 156 produktionsreife Skills für Claude Code hinzu
Ein Entwickler hat AbsolutelySkilled erstellt, ein Verzeichnis von 156 strukturierten Fähigkeitsmodulen für Claude Code, die über Sitzungen hinweg bestehen bleiben. Jede Fähigkeit umfasst Auslösebedingungen, Referenzdateien, Testfälle und Anti-Patterns in SKILL.md-Dateien.

Ein Muster zum Ausführen von Claude Code in unbeaufsichtigten Nachtsitzungen ohne Kursabweichung
Ein Drei-Komponenten-Framework – Chain Runner, Supervisor und ein einziger Übergabevertrag – löst das Problem der Drift in Feedback-Schleifen bei mehrstündigen autonomen Claude Code-Sitzungen.

Marketing Wisdom MCP: Kostenlose semantische Suche für Startup-Erkenntnisse
Ein kostenloser MCP-Server bietet semantische Suche über 6.700 Erkenntnisse aus 1.040 Episoden der Podcasts My First Million und Starter Story. Er bietet vier Werkzeuge zur Abfrage von Gründerweisheiten zu Wachstum, Marketing und Geschäftsstrategien.

Einführung von Lean Collab: Ein Multi-Agenten-Orchestrator für langanhaltende LLM-Aufgaben.
Lean Collab ist ein Open-Source-Orchestrator, der entwickelt wurde, um langfristige LLM-Aufgaben mit koordinierten, parallelen Unteragenten zu verwalten.