NexQuant: Rust-нативный 3-битный движок KV-кэша для развертывания на периферийных устройствах

NexQuant — это нативный движок на Rust для запуска моделей с большим контекстом на потребительском оборудовании, которое обычно испытывает проблемы с ограничениями памяти. Он позиционируется как готовый к промышленному использованию преемник исследовательского проекта TurboQuant+ Тома Тёрни.
Ключевые технические детали
- Сокращение памяти в 3–5 раз: модели на 14B теперь помещаются в 4 ГБ видеопамяти или унифицированной памяти
- Стабильность только на MSE: заменяет шумные пути QJL на стабильную траекторию только с MSE (пройдено 27/27 логических тестов)
- Интегрированная разреженность (Sparse-V): разреженность интегрирована в цикл декодирования в реальном времени, а не является лишь функцией для тестов
- Префилл без выделения памяти (Zero-Alloc Prefill): написан на 100% безопасном Rust для скорости без проблем с сегментацией прототипов на C++
- Поддержка оборудования: нативная диспетчеризация времени выполнения для Metal, CUDA и Vulkan, с поддержкой бэкендов CPU-AVX2/NEON для старых ноутбуков и Raspberry Pi
Детали реализации
Проект использует преобразования Уолша-Адамара и парсинг GGUF на Rust. Он основан на прорывах Тома Тёрни в PolarQuant/TurboQuant+, которые доказали математическую возможность 3-битных KV-кэшей. В разработке участвовал Claude (Anthropic) в качестве высокоскоростного парного программиста.
Цель — обеспечить, чтобы по мере масштабирования моделей возможность их запуска оставалась локальной и децентрализованной. Команда особенно заинтересована в отзывах о ядрах Vulkan SPIR-V.
📖 Прочитать полный источник: r/LocalLLaMA
👀 Смотрите также

Codebase Memory MCP: Графовое исследование кода для Claude Code
Разработчик создал MCP-сервер, который индексирует кодовые базы в постоянный граф знаний с использованием Tree-sitter и SQLite, сокращая использование токенов в среднем в 20 раз для структурных запросов, таких как трассировка вызовов и обнаружение мёртвого кода.

4-уровневая архитектура базы знаний для повышения точности ИИ-агентов
Разработчик создал структурированную базу знаний из 200+ статей для предоставления контекста в конкретной предметной области AI-агентам, реализовав 4-уровневый конвейер с классификацией запросов, что сократило расход токенов примерно на 40%.

Навык Claude Code с открытым исходным кодом /unzuck организует ленты социальных сетей в единую панель управления.
Бесплатный, открытый навык Claude Code под названием /unzuck параллельно сканирует ленты Hacker News, Reddit, LinkedIn, YouTube, Twitter/X, Instagram и Facebook с помощью автоматизации браузера, оценивает элементы по профилям интересов пользователей и генерирует интерактивные HTML-дашборды.

Исправление потери памяти в OpenClaw с помощью плагина Mem0
Агенты OpenClaw испытывают потерю памяти из-за сжатия контекста, которое перезаписывает файлы, такие как MEMORY.md. Плагин Mem0 решает эту проблему, вынося память за пределы окна контекста с функциями авто-вспоминания и авто-захвата.