ZSE: Открытый движок для вывода LLM с временем холодного запуска 3,9 секунды

✍️ OpenClawRadar📅 Опубликовано: 26 февраля 2026 г.🔗 Source

Что делает ZSE

ZSE (Z Server Engine) — это движок вывода LLM с открытым исходным кодом, ориентированный на эффективное использование памяти и быстрый холодный запуск. Он решает проблему, когда для запуска модели на 32B обычно требуется ~64 ГБ видеопамяти, а холодный запуск с bitsandbytes NF4 занимает 2+ минуты при первой загрузке.

Ключевые улучшения производительности

ZSE помещает модели на 32B в 19,3 ГБ видеопамяти (сокращение на 70% по сравнению с FP16) и работает на одной A100-40GB. Для моделей на 7B он использует 5,2 ГБ видеопамяти (сокращение на 63%) и работает на потребительских видеокартах.

Улучшения в холодном запуске значительны: 3,9 с для моделей на 7B и 21,4 с для моделей на 32B с форматом .zse, по сравнению с 45 с и 120 с при использовании bitsandbytes. Эти тесты были проверены на Modal A100-80GB в феврале 2026 года.

Технический подход

Улучшение холодного запуска достигается благодаря формату .zse, который хранит предварительно квантованные веса как отображённые в память safetensors. Это исключает квантование во время загрузки и преобразование весов, используя только mmap + передачу на GPU. На NVMe SSD это позволяет уложиться в 4 секунды для моделей на 7B.

Установка и использование

Установите с помощью: pip install zllm-zse

Базовый запуск сервера: zse serve Qwen/Qwen2.5-7B-Instruct

Для быстрого холодного запуска (однократное преобразование):

zse convert Qwen/Qwen2.5-Coder-7B-Instruct -o qwen-7b.zse
zse serve qwen-7b.zse  # 3.9s каждый раз

Функции

Сервер API, совместимый с OpenAI (прямая замена)
Интерактивный CLI (zse serve, zse chat, zse convert, zse hardware)
Веб-панель с мониторингом GPU в реальном времени
Непрерывное пакетирование (пропускная способность в 3,45× выше)
Поддержка GGUF через резервный вариант llama.cpp на CPU — работает без GPU
Ограничение скорости, аудит-логи, аутентификация по API-ключу

Компоненты архитектуры

zAttention: Пользовательские CUDA-ядра для постраничного, flash и разреженного внимания
zQuantize: Квантование смешанной точности INT2-8 на тензор
zKV: Квантованный кэш KV со скользящей точностью (экономия памяти в 4 раза)
zStream: Потоковая передача слоёв с асинхронной предзагрузкой (запуск 70B на GPU с 24 ГБ)
zOrchestrator: Умные рекомендации на основе СВОБОДНОЙ памяти

Режимы эффективности

speed: Максимальная пропускная способность (производство с достаточным объёмом видеопамяти)
balanced: Хорошая пропускная способность, умеренное использование памяти (стандартное развёртывание, по умолчанию)
memory: Низкое использование памяти, сниженная пропускная способность (потребительские видеокарты)
ultra: Экстремальная экономия памяти (видеокарты на 4 ГБ, ноутбуки)

Поддерживаемые модели

Любая модель HuggingFace transformers, safetensors, GGUF или формат .zse. Популярные варианты включают Qwen, Llama, Mistral, Phi, Gemma, DeepSeek и Yi.

📖 Read the full source: HN LLM Tools

👀 Смотрите также

Инструменты

Плагин Claude Code Yoink заменяет зависимости библиотек для снижения рисков в цепочке поставок

Yoink — это плагин Claude Code, который устраняет сложные зависимости, перереализуя только необходимые функции, используя трёхэтапный рабочий процесс с командами /setup, /curate-tests и /decompose. В настоящее время поддерживается Python, а поддержка TypeScript и Rust находится в разработке.

14 апр. 2026 г., 13:40 UTC

OpenClawRadar

Инструменты

Запускайте локальные LLM на телефоне с Observer: offline-агенты для мониторинга и логирования

Observer — это iOS-приложение с открытым исходным кодом, которое запускает мультимодальные LLM локально на вашем телефоне для отслеживания событий, записи данных и отправки уведомлений в Discord — всё офлайн и бесплатно.

2 мая 2026 г., 16:19 UTC

OpenClawRadar

Инструменты

docvault: Создайте локальную документацию API, чтобы уменьшить галлюцинации ИИ

docvault — это инструмент, который генерирует справочники API в формате markdown из исходного кода, чтобы помочь Claude и другим LLM перестать галлюцинировать сигнатуры функций. Он работает с крейтами Rust и пакетами Python, выводит двухуровневый markdown-файл и включает плагин для Claude Code для работы без ручного вмешательства.

14 апр. 2026 г., 19:45 UTC

OpenClawRadar

Инструменты

Фуллерены: уровень постоянной памяти с открытым исходным кодом для агентов кодирования сокращает количество токенов на 64% в SWE-bench

Fullerenes использует локальную базу знаний SQLite, построенную с помощью Tree-sitter, чтобы предоставить агентам кодирования вроде Claude Code постоянную память, сокращая использование токенов на 64% на SWE-bench и до 96.6% на внутренних тестах.

28 апр. 2026 г., 16:15 UTC

OpenClawRadar