Гипура: планировщик вывода LLM с учетом уровня хранения для Apple Silicon

Что делает Hypura
Hypura — это планировщик вывода LLM для Apple Silicon, учитывающий уровни хранения данных, который распределяет тензоры модели по уровням GPU, оперативной памяти и NVMe на основе шаблонов доступа, затрат на пропускную способность и возможностей оборудования. Это позволяет запускать модели, превышающие объем физической памяти, без сбоев системы.
Ключевые особенности и принцип работы
Hypura считывает файлы GGUF, анализирует ваше оборудование (рабочий набор GPU, оперативная память, пропускная способность NVMe) и решает задачу оптимизации размещения, назначая каждый тензор определенному уровню:
- GPU (Metal) — Слои внимания, нормализации, эмбеддинги
- Оперативная память — Переполненные слои, которые не помещаются в рабочий набор GPU, доступ через mmap
- NVMe — Остальные слои, загружаемые по требованию через прямой ввод-вывод (
F_NOCACHE + pread) с упреждающей выборкой перед прямым проходом
Для моделей MoE, таких как Mixtral, Hypura реализует потоковую передачу экспертов: только неэкспертные тензоры (~1 ГБ) остаются на GPU, тогда как экспертные тензоры передаются потоком с NVMe через буферный пул по требованию. Включает кэш нейронов с 99,5% попаданий, который устраняет большую часть операций ввода-вывода после прогрева, перехват маршрутизатора для идентификации выбранных экспертов и отслеживание совместной активации для прогнозирования следующих активируемых экспертов с целью упреждающей выборки.
Для плотных моделей, таких как Llama 70B, используется плотная потоковая передача FFN: внимание и нормализации остаются на GPU (~8 ГБ), тогда как тензоры FFN (~32 ГБ) передаются потоком с NVMe через динамически изменяемый буферный пул с масштабируемой упреждающей выборкой.
Тесты производительности
Все тесты проводились на M1 Max с 32 ГБ унифицированной памяти и последовательным чтением NVMe ~5,1 ГБ/с:
- Qwen 2.5 14B Q4_K_M (8,4 ГБ): Режим полного резидентства, 21 токен/с (как в llama.cpp)
- Mixtral 8x7B Q5_K_M (30,9 ГБ): Режим потоковой передачи экспертов, 2,2 токена/с (llama.cpp — нехватка памяти)
- Llama 3.3 70B Q4_K_M (39,6 ГБ): Режим плотной потоковой передачи FFN, 0,3 токена/с (llama.cpp — нехватка памяти)
Размер буферного пула, глубина упреждающей выборки и объемы памяти вычисляются автоматически на основе профиля вашего оборудования — ручная настройка не требуется.
Установка
Hypura собирается из исходного кода с помощью Cargo. Вам потребуются Rust 1.75+ и CMake.
📖 Read the full source: HN AI Agents
👀 Смотрите также

Мобильное приложение QCAI добавляет управление шлюзом OpenClaw с нативным VPN Tailscale
QCAI для iOS и Android теперь интегрируется с OpenClaw Control Center, позволяя напрямую управлять шлюзом с мобильных устройств через защищённые VPN-туннели Tailscale без открытых портов.

Helix: Открытая платформа превращает Claude в персонального ИИ-агента для macOS
Helix — это фреймворк с открытым исходным кодом, который подключает Claude через Claude Code в терминале к macOS с помощью четырёх плагинов MCP-сервера, позволяя Claude управлять приложениями, поддерживать постоянную память, выполнять запланированные задачи и работать с локальной обработкой голоса.

Агенты наблюдают: Панель мониторинга в реальном времени для команд агентов Claude Code
Agents Observe — это локальная панель мониторинга, которая обеспечивает наблюдение в реальном времени за сессиями агента Claude Code с использованием хуков вместо OTEL. Она фиксирует каждый вызов инструмента, иерархию агентов и события с возможностями фильтрации и поиска, работая как контейнер Docker, который автоматически запускается вместе с сессиями Claude.

HostedShell: Веб-решение для развертывания агентов OpenClaw
HostedShell — это размещенная версия OpenClaw, которая устраняет необходимость локальной настройки CLI, управления зависимостями и ручного сопряжения, предоставляя веб-консоль с прямым доступом к терминалу и обновлениями файловой системы.