Google Research stellt TurboQuant zur Komprimierung von KI-Modellen vor

✍️ OpenClawRadar📅 Veröffentlicht: 25. März 2026🔗 Source
Google Research stellt TurboQuant zur Komprimierung von KI-Modellen vor
Ad

Was TurboQuant leistet

TurboQuant ist eine Reihe fortschrittlicher Quantisierungsalgorithmen, die eine massive Komprimierung für große Sprachmodelle und Vektorsuchmaschinen ermöglichen. Es behebt speziell Engpässe im Key-Value-Cache – einem Hochgeschwindigkeitsspeichersystem, das häufig genutzte Informationen unter einfachen Bezeichnungen für den sofortigen Abruf speichert.

Wie es funktioniert

TurboQuant erreicht eine hohe Reduzierung der Modellgröße ohne Genauigkeitsverlust durch zwei Schlüsselschritte:

  • Hochwertige Komprimierung (PolarQuant-Methode): Beginnt mit der zufälligen Rotation von Datenvektoren, um die Geometrie zu vereinfachen, und wendet dann einen Standard-Quantisierer auf jeden Teil des Vektors einzeln an. Diese Stufe nutzt den größten Teil der Kompressionsleistung, um das Hauptkonzept und die Stärke des ursprünglichen Vektors zu erfassen.
  • Beseitigung versteckter Fehler: Verwendet eine kleine Restmenge an Kompressionsleistung (nur 1 Bit), um den QJL-Algorithmus auf die winzige Fehlermenge anzuwenden, die von der ersten Stufe übrig bleibt. QJL fungiert als mathematischer Fehlerprüfer, der Verzerrungen eliminiert und zu genaueren Aufmerksamkeitswerten führt.
Ad

Schlüsselkomponenten

QJL (Quantized Johnson-Lindenstrauss): Nutzt die Johnson-Lindenstrauss-Transformation, um hochdimensionale Daten zu verkleinern und dabei die Abstände zwischen Datenpunkten zu erhalten. Es reduziert jede resultierende Vektorzahl auf ein einzelnes Vorzeichenbit (+1 oder -1) ohne Speichermehraufwand. Verwendet einen speziellen Schätzer, der hochpräzise Abfragen mit niedrigpräzisen Daten ausbalanciert, um Aufmerksamkeitswerte genau zu berechnen.

PolarQuant: Behebt den Speichermehraufwand, indem Vektoren mithilfe eines kartesischen Koordinatensystems in Polarkoordinaten umgewandelt werden. Anstelle von Standardkoordinaten (X, Y, Z) verwendet es ein Format, das vergleichbar ist mit „Gehe insgesamt 5 Blöcke in einem Winkel von 37 Grad“ anstatt „Gehe 3 Blöcke nach Osten, 4 Blöcke nach Norden“.

Technischer Kontext

Traditionelle Vektorquantisierung führt typischerweise zu einem Speichermehraufwand von 1-2 zusätzlichen Bits pro Zahl, da Quantisierungskonstanten für jeden kleinen Datenblock gespeichert werden. TurboQuant begegnet dieser Herausforderung optimal. Die Techniken zeigten in Tests vielversprechende Ergebnisse bei der Reduzierung von Key-Value-Engpässen, ohne die Leistung von KI-Modellen zu beeinträchtigen.

TurboQuant wird auf der ICLR 2026 vorgestellt, während PolarQuant auf der AISTATS 2026 präsentiert wird.

📖 Read the full source: HN AI Agents

Ad

👀 Siehe auch