TurboQuant: Algoritmo de IA que Reduce Tamaño sin Pérdida

Qué hace TurboQuant

TurboQuant es un conjunto de algoritmos de cuantización avanzados que permiten una compresión masiva para modelos de lenguaje grandes y motores de búsqueda vectorial. Aborda específicamente los cuellos de botella en la caché clave-valor, un sistema de almacenamiento de alta velocidad que guarda información de uso frecuente bajo etiquetas simples para su recuperación instantánea.

Cómo funciona

TurboQuant logra una gran reducción en el tamaño del modelo sin pérdida de precisión mediante dos pasos clave:

Compresión de alta calidad (método PolarQuant): Comienza rotando aleatoriamente los vectores de datos para simplificar la geometría, luego aplica un cuantizador estándar a cada parte del vector individualmente. Esta etapa utiliza la mayor parte del poder de compresión para capturar el concepto principal y la fuerza del vector original.
Eliminación de errores ocultos: Utiliza una pequeña cantidad residual de poder de compresión (solo 1 bit) para aplicar el algoritmo QJL a la pequeña cantidad de error restante de la primera etapa. QJL actúa como un verificador matemático de errores que elimina el sesgo, lo que lleva a puntuaciones de atención más precisas.

Componentes clave

QJL (Johnson-Lindenstrauss Cuantizado): Utiliza la Transformación de Johnson-Lindenstrauss para reducir datos de alta dimensión mientras preserva las distancias entre puntos de datos. Reduce cada número vectorial resultante a un solo bit de signo (+1 o -1) con cero sobrecarga de memoria. Utiliza un estimador especial que equilibra consultas de alta precisión con datos de baja precisión para calcular con precisión las puntuaciones de atención.

PolarQuant: Aborda la sobrecarga de memoria convirtiendo vectores en coordenadas polares utilizando un sistema de coordenadas cartesianas. En lugar de coordenadas estándar (X, Y, Z), utiliza un formato comparable a "Ir 5 bloques en total en un ángulo de 37 grados" en lugar de "Ir 3 bloques al Este, 4 bloques al Norte".

Contexto técnico

La cuantización vectorial tradicional típicamente introduce una sobrecarga de memoria de 1-2 bits adicionales por número debido al almacenamiento de constantes de cuantización para cada pequeño bloque de datos. TurboQuant aborda óptimamente este desafío. Las técnicas mostraron promesa en pruebas para reducir los cuellos de botella clave-valor sin sacrificar el rendimiento del modelo de IA.

TurboQuant se presentará en ICLR 2026, mientras que PolarQuant se presentará en AISTATS 2026.

📖 Leer la fuente completa: HN AI Agents