ZSE: Открытый движок для вывода LLM с временем холодного запуска 3,9 секунды

Что делает ZSE
ZSE (Z Server Engine) — это движок вывода LLM с открытым исходным кодом, ориентированный на эффективное использование памяти и быстрый холодный запуск. Он решает проблему, когда для запуска модели на 32B обычно требуется ~64 ГБ видеопамяти, а холодный запуск с bitsandbytes NF4 занимает 2+ минуты при первой загрузке.
Ключевые улучшения производительности
ZSE помещает модели на 32B в 19,3 ГБ видеопамяти (сокращение на 70% по сравнению с FP16) и работает на одной A100-40GB. Для моделей на 7B он использует 5,2 ГБ видеопамяти (сокращение на 63%) и работает на потребительских видеокартах.
Улучшения в холодном запуске значительны: 3,9 с для моделей на 7B и 21,4 с для моделей на 32B с форматом .zse, по сравнению с 45 с и 120 с при использовании bitsandbytes. Эти тесты были проверены на Modal A100-80GB в феврале 2026 года.
Технический подход
Улучшение холодного запуска достигается благодаря формату .zse, который хранит предварительно квантованные веса как отображённые в память safetensors. Это исключает квантование во время загрузки и преобразование весов, используя только mmap + передачу на GPU. На NVMe SSD это позволяет уложиться в 4 секунды для моделей на 7B.
Установка и использование
Установите с помощью: pip install zllm-zse
Базовый запуск сервера: zse serve Qwen/Qwen2.5-7B-Instruct
Для быстрого холодного запуска (однократное преобразование):
zse convert Qwen/Qwen2.5-Coder-7B-Instruct -o qwen-7b.zse zse serve qwen-7b.zse # 3.9s каждый раз
Функции
- Сервер API, совместимый с OpenAI (прямая замена)
- Интерактивный CLI (zse serve, zse chat, zse convert, zse hardware)
- Веб-панель с мониторингом GPU в реальном времени
- Непрерывное пакетирование (пропускная способность в 3,45× выше)
- Поддержка GGUF через резервный вариант llama.cpp на CPU — работает без GPU
- Ограничение скорости, аудит-логи, аутентификация по API-ключу
Компоненты архитектуры
- zAttention: Пользовательские CUDA-ядра для постраничного, flash и разреженного внимания
- zQuantize: Квантование смешанной точности INT2-8 на тензор
- zKV: Квантованный кэш KV со скользящей точностью (экономия памяти в 4 раза)
- zStream: Потоковая передача слоёв с асинхронной предзагрузкой (запуск 70B на GPU с 24 ГБ)
- zOrchestrator: Умные рекомендации на основе СВОБОДНОЙ памяти
Режимы эффективности
- speed: Максимальная пропускная способность (производство с достаточным объёмом видеопамяти)
- balanced: Хорошая пропускная способность, умеренное использование памяти (стандартное развёртывание, по умолчанию)
- memory: Низкое использование памяти, сниженная пропускная способность (потребительские видеокарты)
- ultra: Экстремальная экономия памяти (видеокарты на 4 ГБ, ноутбуки)
Поддерживаемые модели
Любая модель HuggingFace transformers, safetensors, GGUF или формат .zse. Популярные варианты включают Qwen, Llama, Mistral, Phi, Gemma, DeepSeek и Yi.
📖 Read the full source: HN LLM Tools
👀 Смотрите также

Портативная инженерная система для Claude Code с хуками, специализированными агентами и возможностью самообучения.
Разработчик создал портативную инженерную систему, которая находится в ~/.claude/ и автоматически применяется к каждому проекту, включая конституцию из 650 строк, детерминированные хуки, блокирующие опасные команды, трех специализированных агентов и самоулучшающийся составной инженерный подход.

DeepSeek Reasonix: Нативный кодинг-агент с высоким кэшированием и низкой стоимостью
Reasonix — это AI-агент для написания кода в терминале, ориентированный на DeepSeek, с высокой эффективностью кэширования и низкой стоимостью инференса.

Встраиваемый OAuth-провайдер для персональных FastMCP серверов на всех платформах Claude
Разработчик создал OAuth-провайдер в одном файле на Python, который позволяет персональным серверам FastMCP работать на платформах Claude.ai (веб, мобильные и десктопные) без необходимости использования внешних сервисов аутентификации, таких как Auth0 или Google.

Коммонс 2.0: Постоянное пространство для взаимодействия моделей искусственного интеллекта
Commons — это публичная платформа, на которой ИИ-модели, такие как Claude, GPT, Gemini и Grok, могут участвовать в дискуссиях, комментировать поэзию, оставлять открытки и вести постоянные диалоги между сессиями. Версия 2.0 добавляет организацию по интересам, систему уведомлений, голосовые профили и инфраструктуру для регистрации агентов.