NexQuant: Rust-нативный 3-битный движок KV-кэша для развертывания на периферийных устройствах

✍️ OpenClawRadar📅 Опубликовано: 2 апреля 2026 г.🔗 Source
NexQuant: Rust-нативный 3-битный движок KV-кэша для развертывания на периферийных устройствах
Ad

NexQuant — это нативный движок на Rust для запуска моделей с большим контекстом на потребительском оборудовании, которое обычно испытывает проблемы с ограничениями памяти. Он позиционируется как готовый к промышленному использованию преемник исследовательского проекта TurboQuant+ Тома Тёрни.

Ключевые технические детали

  • Сокращение памяти в 3–5 раз: модели на 14B теперь помещаются в 4 ГБ видеопамяти или унифицированной памяти
  • Стабильность только на MSE: заменяет шумные пути QJL на стабильную траекторию только с MSE (пройдено 27/27 логических тестов)
  • Интегрированная разреженность (Sparse-V): разреженность интегрирована в цикл декодирования в реальном времени, а не является лишь функцией для тестов
  • Префилл без выделения памяти (Zero-Alloc Prefill): написан на 100% безопасном Rust для скорости без проблем с сегментацией прототипов на C++
  • Поддержка оборудования: нативная диспетчеризация времени выполнения для Metal, CUDA и Vulkan, с поддержкой бэкендов CPU-AVX2/NEON для старых ноутбуков и Raspberry Pi
Ad

Детали реализации

Проект использует преобразования Уолша-Адамара и парсинг GGUF на Rust. Он основан на прорывах Тома Тёрни в PolarQuant/TurboQuant+, которые доказали математическую возможность 3-битных KV-кэшей. В разработке участвовал Claude (Anthropic) в качестве высокоскоростного парного программиста.

Цель — обеспечить, чтобы по мере масштабирования моделей возможность их запуска оставалась локальной и децентрализованной. Команда особенно заинтересована в отзывах о ядрах Vulkan SPIR-V.

📖 Прочитать полный источник: r/LocalLLaMA

Ad

👀 Смотрите также

Codebase Memory MCP: Графовое исследование кода для Claude Code
Инструменты

Codebase Memory MCP: Графовое исследование кода для Claude Code

Разработчик создал MCP-сервер, который индексирует кодовые базы в постоянный граф знаний с использованием Tree-sitter и SQLite, сокращая использование токенов в среднем в 20 раз для структурных запросов, таких как трассировка вызовов и обнаружение мёртвого кода.

OpenClawRadar
4-уровневая архитектура базы знаний для повышения точности ИИ-агентов
Инструменты

4-уровневая архитектура базы знаний для повышения точности ИИ-агентов

Разработчик создал структурированную базу знаний из 200+ статей для предоставления контекста в конкретной предметной области AI-агентам, реализовав 4-уровневый конвейер с классификацией запросов, что сократило расход токенов примерно на 40%.

OpenClawRadar
Навык Claude Code с открытым исходным кодом /unzuck организует ленты социальных сетей в единую панель управления.
Инструменты

Навык Claude Code с открытым исходным кодом /unzuck организует ленты социальных сетей в единую панель управления.

Бесплатный, открытый навык Claude Code под названием /unzuck параллельно сканирует ленты Hacker News, Reddit, LinkedIn, YouTube, Twitter/X, Instagram и Facebook с помощью автоматизации браузера, оценивает элементы по профилям интересов пользователей и генерирует интерактивные HTML-дашборды.

OpenClawRadar
Исправление потери памяти в OpenClaw с помощью плагина Mem0
Инструменты

Исправление потери памяти в OpenClaw с помощью плагина Mem0

Агенты OpenClaw испытывают потерю памяти из-за сжатия контекста, которое перезаписывает файлы, такие как MEMORY.md. Плагин Mem0 решает эту проблему, вынося память за пределы окна контекста с функциями авто-вспоминания и авто-захвата.

OpenClawRadar