TurboQuant: KI-Modell-Komprimierung von Google Research

Was TurboQuant leistet

TurboQuant ist eine Reihe fortschrittlicher Quantisierungsalgorithmen, die eine massive Komprimierung für große Sprachmodelle und Vektorsuchmaschinen ermöglichen. Es behebt speziell Engpässe im Key-Value-Cache – einem Hochgeschwindigkeitsspeichersystem, das häufig genutzte Informationen unter einfachen Bezeichnungen für den sofortigen Abruf speichert.

Wie es funktioniert

TurboQuant erreicht eine hohe Reduzierung der Modellgröße ohne Genauigkeitsverlust durch zwei Schlüsselschritte:

Hochwertige Komprimierung (PolarQuant-Methode): Beginnt mit der zufälligen Rotation von Datenvektoren, um die Geometrie zu vereinfachen, und wendet dann einen Standard-Quantisierer auf jeden Teil des Vektors einzeln an. Diese Stufe nutzt den größten Teil der Kompressionsleistung, um das Hauptkonzept und die Stärke des ursprünglichen Vektors zu erfassen.
Beseitigung versteckter Fehler: Verwendet eine kleine Restmenge an Kompressionsleistung (nur 1 Bit), um den QJL-Algorithmus auf die winzige Fehlermenge anzuwenden, die von der ersten Stufe übrig bleibt. QJL fungiert als mathematischer Fehlerprüfer, der Verzerrungen eliminiert und zu genaueren Aufmerksamkeitswerten führt.

Schlüsselkomponenten

QJL (Quantized Johnson-Lindenstrauss): Nutzt die Johnson-Lindenstrauss-Transformation, um hochdimensionale Daten zu verkleinern und dabei die Abstände zwischen Datenpunkten zu erhalten. Es reduziert jede resultierende Vektorzahl auf ein einzelnes Vorzeichenbit (+1 oder -1) ohne Speichermehraufwand. Verwendet einen speziellen Schätzer, der hochpräzise Abfragen mit niedrigpräzisen Daten ausbalanciert, um Aufmerksamkeitswerte genau zu berechnen.

PolarQuant: Behebt den Speichermehraufwand, indem Vektoren mithilfe eines kartesischen Koordinatensystems in Polarkoordinaten umgewandelt werden. Anstelle von Standardkoordinaten (X, Y, Z) verwendet es ein Format, das vergleichbar ist mit „Gehe insgesamt 5 Blöcke in einem Winkel von 37 Grad“ anstatt „Gehe 3 Blöcke nach Osten, 4 Blöcke nach Norden“.

Technischer Kontext

Traditionelle Vektorquantisierung führt typischerweise zu einem Speichermehraufwand von 1-2 zusätzlichen Bits pro Zahl, da Quantisierungskonstanten für jeden kleinen Datenblock gespeichert werden. TurboQuant begegnet dieser Herausforderung optimal. Die Techniken zeigten in Tests vielversprechende Ergebnisse bei der Reduzierung von Key-Value-Engpässen, ohne die Leistung von KI-Modellen zu beeinträchtigen.

TurboQuant wird auf der ICLR 2026 vorgestellt, während PolarQuant auf der AISTATS 2026 präsentiert wird.

📖 Read the full source: HN AI Agents

Google Research stellt TurboQuant zur Komprimierung von KI-Modellen vor

Was TurboQuant leistet

Wie es funktioniert

Schlüsselkomponenten

Technischer Kontext

👀 Siehe auch

Claude Code überträgt Codierung an Mistral/DeepSeek: 57M Tokens eingespart, 90-100 % Kostenreduktion

Entwickler testet Qwen3.5 27B im Vergleich zu größeren Modellen für lokale Programmieraufgaben

OpenPlawd: OpenClaw-Fähigkeit für automatisierte Plaud-Besprechungsnotizen

Ich habe OpenClaws Standard-Markdown-Speicher entfernt und stattdessen eine Node.js/Postgres-API-Schicht erstellt