NexQuant : Moteur de cache KV 3 bits natif Rust pour déploiement en périphérie

NexQuant est un moteur natif Rust pour exécuter des modèles à contexte élevé sur du matériel grand public qui aurait normalement du mal avec les contraintes de mémoire. Il est positionné comme un successeur éprouvé en production de la recherche TurboQuant+ de Tom Turney.
Détails techniques clés
- Réduction de mémoire de 3 à 5 fois : Les modèles 14B tiennent maintenant dans 4 Go de VRAM ou de mémoire unifiée
- Stabilité MSE uniquement : Remplace les chemins QJL bruyants par une trajectoire stable MSE uniquement (27/27 tests logiques réussis)
- Sparse-V intégré : La parcimonie est intégrée dans la boucle de décodage en temps réel plutôt que d'être simplement une fonctionnalité de benchmark
- Préremplissage sans allocation : Écrit en 100% Rust sûr pour la vitesse sans les problèmes de segmentation des prototypes C++
- Support matériel : Dispatch d'exécution natif pour Metal, CUDA et Vulkan, avec support backend CPU-AVX2/NEON pour les anciens ordinateurs portables et Raspberry Pi
Spécificités d'implémentation
Le projet utilise des Transformées de Walsh-Hadamard et l'analyse GGUF Rust. Il s'appuie sur les percées PolarQuant/TurboQuant+ de Tom Turney qui ont prouvé que les caches KV 3 bits étaient mathématiquement possibles. Le développement a impliqué Claude (Anthropic) en tant que programmeur en binôme à haute vitesse.
L'objectif est de garantir qu'à mesure que les modèles évoluent, la capacité à les exécuter reste locale et décentralisée. L'équipe recherche spécifiquement des retours sur les noyaux Vulkan SPIR-V.
📖 Lire la source complète : r/LocalLLaMA
👀 See Also

MLJAR Studio : Analyste de données IA local qui génère des notebooks reproductibles
MLJAR Studio est une application de bureau qui transforme les questions en langage naturel en notebooks Python exécutés localement, avec AutoML pour les données tabulaires et la prise en charge des LLM locaux via Ollama.

Universal CLAUDE.md réduit les tokens de sortie de Claude de 63 % dans les benchmarks.
Un développeur a créé un fichier universel CLAUDE.md qui réduit de 63 % les tokens de sortie de Claude lors de cinq tests de référence tout en maintenant la précision technique. Le fichier traite les comportements courants de Claude comme les réponses verbeuses, le formatage inutile et les suggestions non sollicitées.

Invite pour assistant de bureaucratie allemande pour Claude : Correspondance juridique structurée
Un prompt système détaillé pour Claude qui transforme l'IA en assistant structuré pour la bureaucratie allemande, les contrats, les litiges d'assurance et le courrier officiel, avec une vérification stricte des faits et un formatage DIN 5008.

ai-codex : Pré-indexez votre base de code pour économiser des tokens Claude
ai-codex est un outil qui génère des index markdown compacts de votre base de code, permettant à Claude Code de sauter la phase d'exploration initiale qui consomme typiquement 30 à 50 000 tokens par conversation. Il crée cinq fichiers couvrant les routes, les pages, les bibliothèques, les schémas et les composants.