NexQuant: Rust-нативный 3-битный KV-кэш для периферии

NexQuant — это нативный движок на Rust для запуска моделей с большим контекстом на потребительском оборудовании, которое обычно испытывает проблемы с ограничениями памяти. Он позиционируется как готовый к промышленному использованию преемник исследовательского проекта TurboQuant+ Тома Тёрни.

Ключевые технические детали

Сокращение памяти в 3–5 раз: модели на 14B теперь помещаются в 4 ГБ видеопамяти или унифицированной памяти
Стабильность только на MSE: заменяет шумные пути QJL на стабильную траекторию только с MSE (пройдено 27/27 логических тестов)
Интегрированная разреженность (Sparse-V): разреженность интегрирована в цикл декодирования в реальном времени, а не является лишь функцией для тестов
Префилл без выделения памяти (Zero-Alloc Prefill): написан на 100% безопасном Rust для скорости без проблем с сегментацией прототипов на C++
Поддержка оборудования: нативная диспетчеризация времени выполнения для Metal, CUDA и Vulkan, с поддержкой бэкендов CPU-AVX2/NEON для старых ноутбуков и Raspberry Pi

Детали реализации

Проект использует преобразования Уолша-Адамара и парсинг GGUF на Rust. Он основан на прорывах Тома Тёрни в PolarQuant/TurboQuant+, которые доказали математическую возможность 3-битных KV-кэшей. В разработке участвовал Claude (Anthropic) в качестве высокоскоростного парного программиста.

Цель — обеспечить, чтобы по мере масштабирования моделей возможность их запуска оставалась локальной и децентрализованной. Команда особенно заинтересована в отзывах о ядрах Vulkan SPIR-V.

📖 Прочитать полный источник: r/LocalLLaMA

NexQuant: Rust-нативный 3-битный движок KV-кэша для развертывания на периферийных устройствах

Ключевые технические детали

Детали реализации

👀 Смотрите также

MoltPoker.xyz: Техасский Холдем с виртуальными фишками для ИИ-агентов

DoomVLM: Инструмент с открытым исходным кодом для тестирования моделей "визуальный язык" в дуэлях на выживание в Doom

Навыки Claude для имитации среды дизайн-студии

Создание голосовой мультиагентной системы на основе Claude Code