TurboQuant : compression IA sans perte de Google Research

Ce que fait TurboQuant

TurboQuant est un ensemble d'algorithmes de quantification avancés qui permettent une compression massive pour les grands modèles de langage et les moteurs de recherche vectorielle. Il traite spécifiquement les goulots d'étranglement dans le cache clé-valeur - un système de stockage haute vitesse qui stocke les informations fréquemment utilisées sous des étiquettes simples pour une récupération instantanée.

Comment cela fonctionne

TurboQuant réalise une réduction importante de la taille du modèle sans perte de précision grâce à deux étapes clés :

Compression de haute qualité (méthode PolarQuant) : Commence par faire tourner aléatoirement les vecteurs de données pour simplifier la géométrie, puis applique un quantificateur standard à chaque partie du vecteur individuellement. Cette étape utilise la majeure partie de la puissance de compression pour capturer le concept principal et la force du vecteur original.
Élimination des erreurs cachées : Utilise une petite quantité résiduelle de puissance de compression (juste 1 bit) pour appliquer l'algorithme QJL à la minuscule quantité d'erreur restante de la première étape. QJL agit comme un vérificateur d'erreurs mathématiques qui élimine les biais, conduisant à des scores d'attention plus précis.

Composants clés

QJL (Quantified Johnson-Lindenstrauss) : Utilise la transformation de Johnson-Lindenstrauss pour réduire les données de haute dimension tout en préservant les distances entre les points de données. Il réduit chaque nombre de vecteur résultant à un seul bit de signe (+1 ou -1) avec une surcharge mémoire nulle. Utilise un estimateur spécial qui équilibre les requêtes haute précision avec les données basse précision pour calculer avec précision les scores d'attention.

PolarQuant : Traite la surcharge mémoire en convertissant les vecteurs en coordonnées polaires à l'aide d'un système de coordonnées cartésiennes. Au lieu des coordonnées standard (X, Y, Z), il utilise un format comparable à "Allez 5 blocs au total à un angle de 37 degrés" plutôt que "Allez 3 blocs à l'Est, 4 blocs au Nord".

Contexte technique

La quantification vectorielle traditionnelle introduit généralement une surcharge mémoire de 1-2 bits supplémentaires par nombre en raison du stockage des constantes de quantification pour chaque petit bloc de données. TurboQuant traite de manière optimale ce défi. Les techniques ont montré des résultats prometteurs dans les tests pour réduire les goulots d'étranglement clé-valeur sans sacrifier les performances du modèle d'IA.

TurboQuant sera présenté à ICLR 2026, tandis que PolarQuant sera présenté à AISTATS 2026.

📖 Read the full source: HN AI Agents

Google Research présente TurboQuant pour la compression de modèles d'IA.

Ce que fait TurboQuant

Comment cela fonctionne

Composants clés

Contexte technique

👀 See Also

Claudetop : Surveillance des Coûts en Temps Réel pour les Sessions de Code Claude

Universal CLAUDE.md réduit les tokens de sortie de Claude de 63 % dans les benchmarks.

Révision : Éditeur IA conçu avec des outils de codage agentique et Y.js CRDT

Développeur crée une bibliothèque de compression en Rust avec Claude Opus 4.6, interroge son utilité