Гипура: планировщик вывода LLM с учетом уровня хранения для Apple Silicon

✍️ OpenClawRadar📅 Опубликовано: 24 марта 2026 г.🔗 Source

Что делает Hypura

Hypura — это планировщик вывода LLM для Apple Silicon, учитывающий уровни хранения данных, который распределяет тензоры модели по уровням GPU, оперативной памяти и NVMe на основе шаблонов доступа, затрат на пропускную способность и возможностей оборудования. Это позволяет запускать модели, превышающие объем физической памяти, без сбоев системы.

Ключевые особенности и принцип работы

Hypura считывает файлы GGUF, анализирует ваше оборудование (рабочий набор GPU, оперативная память, пропускная способность NVMe) и решает задачу оптимизации размещения, назначая каждый тензор определенному уровню:

GPU (Metal) — Слои внимания, нормализации, эмбеддинги
Оперативная память — Переполненные слои, которые не помещаются в рабочий набор GPU, доступ через mmap
NVMe — Остальные слои, загружаемые по требованию через прямой ввод-вывод (F_NOCACHE + pread) с упреждающей выборкой перед прямым проходом

Для моделей MoE, таких как Mixtral, Hypura реализует потоковую передачу экспертов: только неэкспертные тензоры (~1 ГБ) остаются на GPU, тогда как экспертные тензоры передаются потоком с NVMe через буферный пул по требованию. Включает кэш нейронов с 99,5% попаданий, который устраняет большую часть операций ввода-вывода после прогрева, перехват маршрутизатора для идентификации выбранных экспертов и отслеживание совместной активации для прогнозирования следующих активируемых экспертов с целью упреждающей выборки.

Для плотных моделей, таких как Llama 70B, используется плотная потоковая передача FFN: внимание и нормализации остаются на GPU (~8 ГБ), тогда как тензоры FFN (~32 ГБ) передаются потоком с NVMe через динамически изменяемый буферный пул с масштабируемой упреждающей выборкой.

Тесты производительности

Все тесты проводились на M1 Max с 32 ГБ унифицированной памяти и последовательным чтением NVMe ~5,1 ГБ/с:

Qwen 2.5 14B Q4_K_M (8,4 ГБ): Режим полного резидентства, 21 токен/с (как в llama.cpp)
Mixtral 8x7B Q5_K_M (30,9 ГБ): Режим потоковой передачи экспертов, 2,2 токена/с (llama.cpp — нехватка памяти)
Llama 3.3 70B Q4_K_M (39,6 ГБ): Режим плотной потоковой передачи FFN, 0,3 токена/с (llama.cpp — нехватка памяти)

Размер буферного пула, глубина упреждающей выборки и объемы памяти вычисляются автоматически на основе профиля вашего оборудования — ручная настройка не требуется.

Установка

Hypura собирается из исходного кода с помощью Cargo. Вам потребуются Rust 1.75+ и CMake.

📖 Read the full source: HN AI Agents

👀 Смотрите также

Инструменты

log-context-mcp: Инструмент MCP сокращает использование токенов логов на 96% при отладке Claude

log-context-mcp — это инструмент MCP, который предварительно обрабатывает файлы журналов перед их попаданием в контекст Claude, удаляя дублирующиеся строки, группируя трассировки стека и убирая шум для снижения расхода токенов. Тестирование на журнале Apache из 2000 строк показало сокращение на 96,5% при корректном определении первопричин.

14 мар. 2026 г., 15:45 UTC

OpenClawRadar

Инструменты

Результаты тестирования: 15 языковых моделей проверены на 38 реальных рабочих задачах

Разработчик протестировал 15 облачных и локальных языковых моделей на 38 задачах из своего реального рабочего процесса, включая преобразование CSV, подсчёт букв, модульную арифметику и соответствие формату. Claude 3.5 Sonnet и Opus оба набрали 100%, но Sonnet стоит в 3,5 раза дешевле за вызов.

10 мар. 2026 г., 17:45 UTC

OpenClawRadar

Инструменты

Выпущен клиент ClawControl для iOS для самоуправляемых серверов OpenClaw.

ClawControl v1.50 теперь доступен на iOS в качестве клиента для мобильных устройств, ориентированного на конфиденциальность, для самостоятельно размещенных серверов OpenClaw/Claw. Это приложение с открытым исходным кодом позволяет вести чат в реальном времени с потоковыми ответами, управлять агентами и контролировать сессии с мобильных устройств.

11 мар. 2026 г., 05:45 UTC

OpenClawRadar

Инструменты

mentioned.to vs инструменты широкого мониторинга: сравнение рабочих процессов, ориентированных на Reddit

mentioned.to — это инструмент мониторинга, специально разработанный для рабочих процессов на Reddit, который фокусируется на отслеживании релевантных постов, выявлении возможностей для ответов, анализе успешного контента и составлении ответов, а не на широком мониторинге бренда по множеству каналов.

16 апр. 2026 г., 21:45 UTC

OpenClawRadar