A Google Research apresenta o TurboQuant para compressão de modelos de IA

O que o TurboQuant faz
O TurboQuant é um conjunto de algoritmos avançados de quantização que permitem uma compressão massiva para grandes modelos de linguagem e mecanismos de busca vetorial. Ele aborda especificamente gargalos no cache chave-valor - um sistema de armazenamento de alta velocidade que armazena informações frequentemente usadas sob rótulos simples para recuperação instantânea.
Como funciona
O TurboQuant alcança uma grande redução no tamanho do modelo sem perda de precisão através de duas etapas principais:
- Compressão de alta qualidade (método PolarQuant): Começa girando aleatoriamente os vetores de dados para simplificar a geometria, depois aplica um quantizador padrão a cada parte do vetor individualmente. Esta fase usa a maior parte do poder de compressão para capturar o conceito principal e a força do vetor original.
- Eliminando erros ocultos: Usa uma pequena quantidade residual de poder de compressão (apenas 1 bit) para aplicar o algoritmo QJL à pequena quantidade de erro restante da primeira etapa. O QJL atua como um verificador matemático de erros que elimina viés, levando a escores de atenção mais precisos.
Componentes principais
QJL (Johnson-Lindenstrauss Quantizado): Usa a Transformada de Johnson-Lindenstrauss para reduzir dados de alta dimensão enquanto preserva as distâncias entre pontos de dados. Reduz cada número vetorial resultante para um único bit de sinal (+1 ou -1) com sobrecarga de memória zero. Usa um estimador especial que equilibra consultas de alta precisão com dados de baixa precisão para calcular com precisão os escores de atenção.
PolarQuant: Aborda a sobrecarga de memória convertendo vetores em coordenadas polares usando um sistema de coordenadas cartesianas. Em vez de coordenadas padrão (X, Y, Z), usa um formato comparável a "Vá 5 blocos no total em um ângulo de 37 graus" em vez de "Vá 3 blocos para Leste, 4 blocos para Norte".
Contexto técnico
A quantização vetorial tradicional normalmente introduz uma sobrecarga de memória de 1-2 bits extras por número devido ao armazenamento de constantes de quantização para cada pequeno bloco de dados. O TurboQuant aborda de forma ideal esse desafio. As técnicas mostraram promessa em testes para reduzir gargalos chave-valor sem sacrificar o desempenho do modelo de IA.
O TurboQuant será apresentado na ICLR 2026, enquanto o PolarQuant será apresentado na AISTATS 2026.
📖 Leia a fonte completa: HN AI Agents
👀 See Also

Servidor MCP para Busca Semântica em Vaults do Obsidian
Um desenvolvedor criou um servidor MCP que indexa vaults do Obsidian no Qdrant com embeddings locais, permitindo busca semântica em vez de correspondência por palavras-chave. Ele segmenta markdown por títulos, usa embeddings BAAI/bge-small-en-v1.5 e funciona com Claude Code, Cursor, Windsurf ou qualquer cliente MCP.

A habilidade de atoship do OpenClaw transforma o assistente de IA em um gerente de envios.
A habilidade atoship para o OpenClaw permite que os usuários descrevam suas necessidades de envio em inglês simples, depois cuida da seleção da transportadora, comparação de tarifas, compra de etiquetas e rastreamento. Exemplos de comandos incluem 'envie esta caixa de 1lb para Nova York, opção mais barata'.

Relay: Plano de Controle de Código Aberto para Agentes de IA OpenClaw
Relay é um aplicativo de desktop Electron que fornece um fluxo de trabalho semelhante ao Claude Cowork para OpenClaw, executando em sua infraestrutura com sua escolha de modelos LLM e recursos de governança integrados, incluindo portões de aprovação e trilhas de auditoria exportáveis.

Antecipadamente: Um Plugin de Código Claude que Força o Pensamento Antes da Programação
Upfront é um plugin Claude Code com 20 habilidades que desafia desenvolvedores antes de gerar código. Ele usa três comandos: /upfront:feature para questionar requisitos vagos, /upfront:plan para dividir o trabalho em fases de ~400 LOC, e /upfront:build para executar com TDD e revisão por fase.