NexQuant: Rust-нативный 3-битный движок KV-кэша для развертывания на периферийных устройствах

NexQuant — это нативный движок на Rust для запуска моделей с большим контекстом на потребительском оборудовании, которое обычно испытывает проблемы с ограничениями памяти. Он позиционируется как готовый к промышленному использованию преемник исследовательского проекта TurboQuant+ Тома Тёрни.
Ключевые технические детали
- Сокращение памяти в 3–5 раз: модели на 14B теперь помещаются в 4 ГБ видеопамяти или унифицированной памяти
- Стабильность только на MSE: заменяет шумные пути QJL на стабильную траекторию только с MSE (пройдено 27/27 логических тестов)
- Интегрированная разреженность (Sparse-V): разреженность интегрирована в цикл декодирования в реальном времени, а не является лишь функцией для тестов
- Префилл без выделения памяти (Zero-Alloc Prefill): написан на 100% безопасном Rust для скорости без проблем с сегментацией прототипов на C++
- Поддержка оборудования: нативная диспетчеризация времени выполнения для Metal, CUDA и Vulkan, с поддержкой бэкендов CPU-AVX2/NEON для старых ноутбуков и Raspberry Pi
Детали реализации
Проект использует преобразования Уолша-Адамара и парсинг GGUF на Rust. Он основан на прорывах Тома Тёрни в PolarQuant/TurboQuant+, которые доказали математическую возможность 3-битных KV-кэшей. В разработке участвовал Claude (Anthropic) в качестве высокоскоростного парного программиста.
Цель — обеспечить, чтобы по мере масштабирования моделей возможность их запуска оставалась локальной и децентрализованной. Команда особенно заинтересована в отзывах о ядрах Vulkan SPIR-V.
📖 Прочитать полный источник: r/LocalLLaMA
👀 Смотрите также

Репозиторий шаблонов кода Claude для приложений Spring Boot
Репозиторий GitHub предоставляет шаблон Claude Code для генерации приложений Spring Boot с лучшими практиками интеграции базы данных, развертывания в Kubernetes и интеграционного тестирования с использованием Testcontainers.

Универсальный CLAUDE.md сокращает количество токенов в выводе Claude на 63% в тестах.
Разработчик создал универсальный файл CLAUDE.md, который сокращает количество токенов в ответах Claude на 63% в пяти тестах, сохраняя техническую точность. Файл устраняет типичные особенности поведения Claude, такие как многословные ответы, избыточное форматирование и непрошенные предложения.

Repowise: Предвычисленный контекст кодовой базы для Claude Code сокращает использование токенов и время выполнения задач вдвое
Repowise индексирует вашу кодовую базу в четыре слоя (граф зависимостей, сигналы git, вики-документация, ADR) и предоставляет восемь MCP-инструментов для Claude Code, сокращая археологию по 30 файлам до 5 MCP-вызовов и 2 минут.

У быстрого пути поиска в памяти QMD OpenClaw были скрытые ошибки.
Встроенный поиск по памяти OpenClaw использует простое сопоставление ключевых слов, но пользователи могут переключиться на QMD для семантического поиска по файлам markdown в рабочем пространстве. Быстрый путь через MCPorter был сломан из-за трёх ошибок, из-за которых каждый вызов молча завершался неудачей и переключался на более медленное выполнение через CLI.