TurboQuant: Compressão de Modelos de IA Sem Perda de Precisão

O que o TurboQuant faz

O TurboQuant é um conjunto de algoritmos avançados de quantização que permitem uma compressão massiva para grandes modelos de linguagem e mecanismos de busca vetorial. Ele aborda especificamente gargalos no cache chave-valor - um sistema de armazenamento de alta velocidade que armazena informações frequentemente usadas sob rótulos simples para recuperação instantânea.

Como funciona

O TurboQuant alcança uma grande redução no tamanho do modelo sem perda de precisão através de duas etapas principais:

Compressão de alta qualidade (método PolarQuant): Começa girando aleatoriamente os vetores de dados para simplificar a geometria, depois aplica um quantizador padrão a cada parte do vetor individualmente. Esta fase usa a maior parte do poder de compressão para capturar o conceito principal e a força do vetor original.
Eliminando erros ocultos: Usa uma pequena quantidade residual de poder de compressão (apenas 1 bit) para aplicar o algoritmo QJL à pequena quantidade de erro restante da primeira etapa. O QJL atua como um verificador matemático de erros que elimina viés, levando a escores de atenção mais precisos.

Componentes principais

QJL (Johnson-Lindenstrauss Quantizado): Usa a Transformada de Johnson-Lindenstrauss para reduzir dados de alta dimensão enquanto preserva as distâncias entre pontos de dados. Reduz cada número vetorial resultante para um único bit de sinal (+1 ou -1) com sobrecarga de memória zero. Usa um estimador especial que equilibra consultas de alta precisão com dados de baixa precisão para calcular com precisão os escores de atenção.

PolarQuant: Aborda a sobrecarga de memória convertendo vetores em coordenadas polares usando um sistema de coordenadas cartesianas. Em vez de coordenadas padrão (X, Y, Z), usa um formato comparável a "Vá 5 blocos no total em um ângulo de 37 graus" em vez de "Vá 3 blocos para Leste, 4 blocos para Norte".

Contexto técnico

A quantização vetorial tradicional normalmente introduz uma sobrecarga de memória de 1-2 bits extras por número devido ao armazenamento de constantes de quantização para cada pequeno bloco de dados. O TurboQuant aborda de forma ideal esse desafio. As técnicas mostraram promessa em testes para reduzir gargalos chave-valor sem sacrificar o desempenho do modelo de IA.

O TurboQuant será apresentado na ICLR 2026, enquanto o PolarQuant será apresentado na AISTATS 2026.

📖 Leia a fonte completa: HN AI Agents