NexQuant : Moteur de cache KV 3 bits natif Rust pour périphérie

NexQuant est un moteur natif Rust pour exécuter des modèles à contexte élevé sur du matériel grand public qui aurait normalement du mal avec les contraintes de mémoire. Il est positionné comme un successeur éprouvé en production de la recherche TurboQuant+ de Tom Turney.

Détails techniques clés

Réduction de mémoire de 3 à 5 fois : Les modèles 14B tiennent maintenant dans 4 Go de VRAM ou de mémoire unifiée
Stabilité MSE uniquement : Remplace les chemins QJL bruyants par une trajectoire stable MSE uniquement (27/27 tests logiques réussis)
Sparse-V intégré : La parcimonie est intégrée dans la boucle de décodage en temps réel plutôt que d'être simplement une fonctionnalité de benchmark
Préremplissage sans allocation : Écrit en 100% Rust sûr pour la vitesse sans les problèmes de segmentation des prototypes C++
Support matériel : Dispatch d'exécution natif pour Metal, CUDA et Vulkan, avec support backend CPU-AVX2/NEON pour les anciens ordinateurs portables et Raspberry Pi

Spécificités d'implémentation

Le projet utilise des Transformées de Walsh-Hadamard et l'analyse GGUF Rust. Il s'appuie sur les percées PolarQuant/TurboQuant+ de Tom Turney qui ont prouvé que les caches KV 3 bits étaient mathématiquement possibles. Le développement a impliqué Claude (Anthropic) en tant que programmeur en binôme à haute vitesse.

L'objectif est de garantir qu'à mesure que les modèles évoluent, la capacité à les exécuter reste locale et décentralisée. L'équipe recherche spécifiquement des retours sur les noyaux Vulkan SPIR-V.

📖 Lire la source complète : r/LocalLLaMA

NexQuant : Moteur de cache KV 3 bits natif Rust pour déploiement en périphérie

Détails techniques clés

Spécificités d'implémentation

👀 See Also

Jentic Mini : Couche d'exécution d'API et d'actions auto-hébergée pour OpenClaw

Runtime : des agents de codage en bac à sable pour chaque membre de l’équipe

LORE.md : Une Norme Ouverte pour Extraire des Connaissances Structurées des Conversations IA

Liste Sélectionnée de 260+ Outils d'Agents IA avec les Points Forts de l'Écosystème Claude