NexQuant: Rust-нативный 3-битный движок KV-кэша для развертывания на периферийных устройствах

✍️ OpenClawRadar📅 Опубликовано: 2 апреля 2026 г.🔗 Source
NexQuant: Rust-нативный 3-битный движок KV-кэша для развертывания на периферийных устройствах
Ad

NexQuant — это нативный движок на Rust для запуска моделей с большим контекстом на потребительском оборудовании, которое обычно испытывает проблемы с ограничениями памяти. Он позиционируется как готовый к промышленному использованию преемник исследовательского проекта TurboQuant+ Тома Тёрни.

Ключевые технические детали

  • Сокращение памяти в 3–5 раз: модели на 14B теперь помещаются в 4 ГБ видеопамяти или унифицированной памяти
  • Стабильность только на MSE: заменяет шумные пути QJL на стабильную траекторию только с MSE (пройдено 27/27 логических тестов)
  • Интегрированная разреженность (Sparse-V): разреженность интегрирована в цикл декодирования в реальном времени, а не является лишь функцией для тестов
  • Префилл без выделения памяти (Zero-Alloc Prefill): написан на 100% безопасном Rust для скорости без проблем с сегментацией прототипов на C++
  • Поддержка оборудования: нативная диспетчеризация времени выполнения для Metal, CUDA и Vulkan, с поддержкой бэкендов CPU-AVX2/NEON для старых ноутбуков и Raspberry Pi
Ad

Детали реализации

Проект использует преобразования Уолша-Адамара и парсинг GGUF на Rust. Он основан на прорывах Тома Тёрни в PolarQuant/TurboQuant+, которые доказали математическую возможность 3-битных KV-кэшей. В разработке участвовал Claude (Anthropic) в качестве высокоскоростного парного программиста.

Цель — обеспечить, чтобы по мере масштабирования моделей возможность их запуска оставалась локальной и децентрализованной. Команда особенно заинтересована в отзывах о ядрах Vulkan SPIR-V.

📖 Прочитать полный источник: r/LocalLLaMA

Ad

👀 Смотрите также

Репозиторий шаблонов кода Claude для приложений Spring Boot
Инструменты

Репозиторий шаблонов кода Claude для приложений Spring Boot

Репозиторий GitHub предоставляет шаблон Claude Code для генерации приложений Spring Boot с лучшими практиками интеграции базы данных, развертывания в Kubernetes и интеграционного тестирования с использованием Testcontainers.

OpenClawRadar
Универсальный CLAUDE.md сокращает количество токенов в выводе Claude на 63% в тестах.
Инструменты

Универсальный CLAUDE.md сокращает количество токенов в выводе Claude на 63% в тестах.

Разработчик создал универсальный файл CLAUDE.md, который сокращает количество токенов в ответах Claude на 63% в пяти тестах, сохраняя техническую точность. Файл устраняет типичные особенности поведения Claude, такие как многословные ответы, избыточное форматирование и непрошенные предложения.

OpenClawRadar
Repowise: Предвычисленный контекст кодовой базы для Claude Code сокращает использование токенов и время выполнения задач вдвое
Инструменты

Repowise: Предвычисленный контекст кодовой базы для Claude Code сокращает использование токенов и время выполнения задач вдвое

Repowise индексирует вашу кодовую базу в четыре слоя (граф зависимостей, сигналы git, вики-документация, ADR) и предоставляет восемь MCP-инструментов для Claude Code, сокращая археологию по 30 файлам до 5 MCP-вызовов и 2 минут.

OpenClawRadar
У быстрого пути поиска в памяти QMD OpenClaw были скрытые ошибки.
Инструменты

У быстрого пути поиска в памяти QMD OpenClaw были скрытые ошибки.

Встроенный поиск по памяти OpenClaw использует простое сопоставление ключевых слов, но пользователи могут переключиться на QMD для семантического поиска по файлам markdown в рабочем пространстве. Быстрый путь через MCPorter был сломан из-за трёх ошибок, из-за которых каждый вызов молча завершался неудачей и переключался на более медленное выполнение через CLI.

OpenClawRadar