Google Research présente TurboQuant pour la compression de modèles d'IA.

Ce que fait TurboQuant
TurboQuant est un ensemble d'algorithmes de quantification avancés qui permettent une compression massive pour les grands modèles de langage et les moteurs de recherche vectorielle. Il traite spécifiquement les goulots d'étranglement dans le cache clé-valeur - un système de stockage haute vitesse qui stocke les informations fréquemment utilisées sous des étiquettes simples pour une récupération instantanée.
Comment cela fonctionne
TurboQuant réalise une réduction importante de la taille du modèle sans perte de précision grâce à deux étapes clés :
- Compression de haute qualité (méthode PolarQuant) : Commence par faire tourner aléatoirement les vecteurs de données pour simplifier la géométrie, puis applique un quantificateur standard à chaque partie du vecteur individuellement. Cette étape utilise la majeure partie de la puissance de compression pour capturer le concept principal et la force du vecteur original.
- Élimination des erreurs cachées : Utilise une petite quantité résiduelle de puissance de compression (juste 1 bit) pour appliquer l'algorithme QJL à la minuscule quantité d'erreur restante de la première étape. QJL agit comme un vérificateur d'erreurs mathématiques qui élimine les biais, conduisant à des scores d'attention plus précis.
Composants clés
QJL (Quantified Johnson-Lindenstrauss) : Utilise la transformation de Johnson-Lindenstrauss pour réduire les données de haute dimension tout en préservant les distances entre les points de données. Il réduit chaque nombre de vecteur résultant à un seul bit de signe (+1 ou -1) avec une surcharge mémoire nulle. Utilise un estimateur spécial qui équilibre les requêtes haute précision avec les données basse précision pour calculer avec précision les scores d'attention.
PolarQuant : Traite la surcharge mémoire en convertissant les vecteurs en coordonnées polaires à l'aide d'un système de coordonnées cartésiennes. Au lieu des coordonnées standard (X, Y, Z), il utilise un format comparable à "Allez 5 blocs au total à un angle de 37 degrés" plutôt que "Allez 3 blocs à l'Est, 4 blocs au Nord".
Contexte technique
La quantification vectorielle traditionnelle introduit généralement une surcharge mémoire de 1-2 bits supplémentaires par nombre en raison du stockage des constantes de quantification pour chaque petit bloc de données. TurboQuant traite de manière optimale ce défi. Les techniques ont montré des résultats prometteurs dans les tests pour réduire les goulots d'étranglement clé-valeur sans sacrifier les performances du modèle d'IA.
TurboQuant sera présenté à ICLR 2026, tandis que PolarQuant sera présenté à AISTATS 2026.
📖 Read the full source: HN AI Agents
👀 See Also

Claudetop : Surveillance des Coûts en Temps Réel pour les Sessions de Code Claude
Claudetop est un outil similaire à htop qui affiche les dépenses en temps réel, l'efficacité du cache et les comparaisons de modèles pour les sessions Claude Code. Il fournit des commandes slash comme /claudetop:stats et des alertes intelligentes pour les jalons de coût et les problèmes d'efficacité.

Universal CLAUDE.md réduit les tokens de sortie de Claude de 63 % dans les benchmarks.
Un développeur a créé un fichier universel CLAUDE.md qui réduit de 63 % les tokens de sortie de Claude lors de cinq tests de référence tout en maintenant la précision technique. Le fichier traite les comportements courants de Claude comme les réponses verbeuses, le formatage inutile et les suggestions non sollicitées.

Révision : Éditeur IA conçu avec des outils de codage agentique et Y.js CRDT
Revise est un éditeur de documents IA développé entièrement à partir de zéro sur 10 mois à l'aide d'outils de codage agentique, avec un moteur de traitement de texte et une couche de rendu personnalisés qui n'utilisent Y.js que pour la pile CRDT. Il intègre plusieurs modèles d'IA, y compris des variantes de GPT-5.4 et des modèles Claude pour la relecture et la révision.

Développeur crée une bibliothèque de compression en Rust avec Claude Opus 4.6, interroge son utilité
Un développeur a utilisé Claude Opus 4.6 pendant deux semaines pour créer une bibliothèque de compression Rust de 15 800 lignes avec 449 tests réussis, des liaisons Python et une couche FFI en C, mais se demande si une autre bibliothèque de compression était nécessaire.