ZSE: Открытый движок для вывода LLM с временем холодного запуска 3,9 секунды

✍️ OpenClawRadar📅 Опубликовано: 26 февраля 2026 г.🔗 Source
ZSE: Открытый движок для вывода LLM с временем холодного запуска 3,9 секунды
Ad

Что делает ZSE

ZSE (Z Server Engine) — это движок вывода LLM с открытым исходным кодом, ориентированный на эффективное использование памяти и быстрый холодный запуск. Он решает проблему, когда для запуска модели на 32B обычно требуется ~64 ГБ видеопамяти, а холодный запуск с bitsandbytes NF4 занимает 2+ минуты при первой загрузке.

Ключевые улучшения производительности

ZSE помещает модели на 32B в 19,3 ГБ видеопамяти (сокращение на 70% по сравнению с FP16) и работает на одной A100-40GB. Для моделей на 7B он использует 5,2 ГБ видеопамяти (сокращение на 63%) и работает на потребительских видеокартах.

Улучшения в холодном запуске значительны: 3,9 с для моделей на 7B и 21,4 с для моделей на 32B с форматом .zse, по сравнению с 45 с и 120 с при использовании bitsandbytes. Эти тесты были проверены на Modal A100-80GB в феврале 2026 года.

Технический подход

Улучшение холодного запуска достигается благодаря формату .zse, который хранит предварительно квантованные веса как отображённые в память safetensors. Это исключает квантование во время загрузки и преобразование весов, используя только mmap + передачу на GPU. На NVMe SSD это позволяет уложиться в 4 секунды для моделей на 7B.

Установка и использование

Установите с помощью: pip install zllm-zse

Базовый запуск сервера: zse serve Qwen/Qwen2.5-7B-Instruct

Для быстрого холодного запуска (однократное преобразование):

zse convert Qwen/Qwen2.5-Coder-7B-Instruct -o qwen-7b.zse
zse serve qwen-7b.zse  # 3.9s каждый раз
Ad

Функции

  • Сервер API, совместимый с OpenAI (прямая замена)
  • Интерактивный CLI (zse serve, zse chat, zse convert, zse hardware)
  • Веб-панель с мониторингом GPU в реальном времени
  • Непрерывное пакетирование (пропускная способность в 3,45× выше)
  • Поддержка GGUF через резервный вариант llama.cpp на CPU — работает без GPU
  • Ограничение скорости, аудит-логи, аутентификация по API-ключу

Компоненты архитектуры

  • zAttention: Пользовательские CUDA-ядра для постраничного, flash и разреженного внимания
  • zQuantize: Квантование смешанной точности INT2-8 на тензор
  • zKV: Квантованный кэш KV со скользящей точностью (экономия памяти в 4 раза)
  • zStream: Потоковая передача слоёв с асинхронной предзагрузкой (запуск 70B на GPU с 24 ГБ)
  • zOrchestrator: Умные рекомендации на основе СВОБОДНОЙ памяти

Режимы эффективности

  • speed: Максимальная пропускная способность (производство с достаточным объёмом видеопамяти)
  • balanced: Хорошая пропускная способность, умеренное использование памяти (стандартное развёртывание, по умолчанию)
  • memory: Низкое использование памяти, сниженная пропускная способность (потребительские видеокарты)
  • ultra: Экстремальная экономия памяти (видеокарты на 4 ГБ, ноутбуки)

Поддерживаемые модели

Любая модель HuggingFace transformers, safetensors, GGUF или формат .zse. Популярные варианты включают Qwen, Llama, Mistral, Phi, Gemma, DeepSeek и Yi.

📖 Read the full source: HN LLM Tools

Ad

👀 Смотрите также

Портативная инженерная система для Claude Code с хуками, специализированными агентами и возможностью самообучения.
Инструменты

Портативная инженерная система для Claude Code с хуками, специализированными агентами и возможностью самообучения.

Разработчик создал портативную инженерную систему, которая находится в ~/.claude/ и автоматически применяется к каждому проекту, включая конституцию из 650 строк, детерминированные хуки, блокирующие опасные команды, трех специализированных агентов и самоулучшающийся составной инженерный подход.

OpenClawRadar
DeepSeek Reasonix: Нативный кодинг-агент с высоким кэшированием и низкой стоимостью
Инструменты

DeepSeek Reasonix: Нативный кодинг-агент с высоким кэшированием и низкой стоимостью

Reasonix — это AI-агент для написания кода в терминале, ориентированный на DeepSeek, с высокой эффективностью кэширования и низкой стоимостью инференса.

OpenClawRadar
Встраиваемый OAuth-провайдер для персональных FastMCP серверов на всех платформах Claude
Инструменты

Встраиваемый OAuth-провайдер для персональных FastMCP серверов на всех платформах Claude

Разработчик создал OAuth-провайдер в одном файле на Python, который позволяет персональным серверам FastMCP работать на платформах Claude.ai (веб, мобильные и десктопные) без необходимости использования внешних сервисов аутентификации, таких как Auth0 или Google.

OpenClawRadar
Коммонс 2.0: Постоянное пространство для взаимодействия моделей искусственного интеллекта
Инструменты

Коммонс 2.0: Постоянное пространство для взаимодействия моделей искусственного интеллекта

Commons — это публичная платформа, на которой ИИ-модели, такие как Claude, GPT, Gemini и Grok, могут участвовать в дискуссиях, комментировать поэзию, оставлять открытки и вести постоянные диалоги между сессиями. Версия 2.0 добавляет организацию по интересам, систему уведомлений, голосовые профили и инфраструктуру для регистрации агентов.

OpenClawRadar