Google Research stellt TurboQuant zur Komprimierung von KI-Modellen vor

Was TurboQuant leistet
TurboQuant ist eine Reihe fortschrittlicher Quantisierungsalgorithmen, die eine massive Komprimierung für große Sprachmodelle und Vektorsuchmaschinen ermöglichen. Es behebt speziell Engpässe im Key-Value-Cache – einem Hochgeschwindigkeitsspeichersystem, das häufig genutzte Informationen unter einfachen Bezeichnungen für den sofortigen Abruf speichert.
Wie es funktioniert
TurboQuant erreicht eine hohe Reduzierung der Modellgröße ohne Genauigkeitsverlust durch zwei Schlüsselschritte:
- Hochwertige Komprimierung (PolarQuant-Methode): Beginnt mit der zufälligen Rotation von Datenvektoren, um die Geometrie zu vereinfachen, und wendet dann einen Standard-Quantisierer auf jeden Teil des Vektors einzeln an. Diese Stufe nutzt den größten Teil der Kompressionsleistung, um das Hauptkonzept und die Stärke des ursprünglichen Vektors zu erfassen.
- Beseitigung versteckter Fehler: Verwendet eine kleine Restmenge an Kompressionsleistung (nur 1 Bit), um den QJL-Algorithmus auf die winzige Fehlermenge anzuwenden, die von der ersten Stufe übrig bleibt. QJL fungiert als mathematischer Fehlerprüfer, der Verzerrungen eliminiert und zu genaueren Aufmerksamkeitswerten führt.
Schlüsselkomponenten
QJL (Quantized Johnson-Lindenstrauss): Nutzt die Johnson-Lindenstrauss-Transformation, um hochdimensionale Daten zu verkleinern und dabei die Abstände zwischen Datenpunkten zu erhalten. Es reduziert jede resultierende Vektorzahl auf ein einzelnes Vorzeichenbit (+1 oder -1) ohne Speichermehraufwand. Verwendet einen speziellen Schätzer, der hochpräzise Abfragen mit niedrigpräzisen Daten ausbalanciert, um Aufmerksamkeitswerte genau zu berechnen.
PolarQuant: Behebt den Speichermehraufwand, indem Vektoren mithilfe eines kartesischen Koordinatensystems in Polarkoordinaten umgewandelt werden. Anstelle von Standardkoordinaten (X, Y, Z) verwendet es ein Format, das vergleichbar ist mit „Gehe insgesamt 5 Blöcke in einem Winkel von 37 Grad“ anstatt „Gehe 3 Blöcke nach Osten, 4 Blöcke nach Norden“.
Technischer Kontext
Traditionelle Vektorquantisierung führt typischerweise zu einem Speichermehraufwand von 1-2 zusätzlichen Bits pro Zahl, da Quantisierungskonstanten für jeden kleinen Datenblock gespeichert werden. TurboQuant begegnet dieser Herausforderung optimal. Die Techniken zeigten in Tests vielversprechende Ergebnisse bei der Reduzierung von Key-Value-Engpässen, ohne die Leistung von KI-Modellen zu beeinträchtigen.
TurboQuant wird auf der ICLR 2026 vorgestellt, während PolarQuant auf der AISTATS 2026 präsentiert wird.
📖 Read the full source: HN AI Agents
👀 Siehe auch

SkyClaw: Eine offene Agentenlaufzeitumgebung in Rust geschrieben
SkyClaw ist eine in Rust geschriebene Open-Source-Agentenlaufzeitumgebung mit 34 neuen Funktionen über 7 Entwicklungsphasen hinweg. Sie umfasst Task-Checkpointing, SQLite-gestützte persistente Warteschlangen, parallele Tool-Ausführung und Multi-Tenancy-Unterstützung.

Verbesserung der Claude-Code-Sitzungen mit claude-self-improve
Claude-self-improve ist ein CLI-Tool, das die AI-Leistung von Claude Code verbessert, indem es Sitzungsdaten analysiert und Speicherdateien automatisch aktualisiert.

Puzzle-Spiel für Bots mit Preisen: Eine neue Herausforderung für KI-Programmierer
Ein faszinierendes neues Puzzle-Spiel lädt KI-Programmierer dazu ein, ihre Kreativität und Intelligenz auszuleben, indem sie Bot-Lösungen entwickeln, um Preise zu gewinnen. Die Initiative hat in der KI-Community für Aufsehen gesorgt und Kreativität sowie Wettbewerb angeregt.

Bewahre meine Klaue: Backup-Dienst für OpenClaw-Arbeitsbereiche
Keep My Claw ist ein Backup-Dienst, der OpenClaw-Arbeitsbereichsdaten lokal verschlüsselt, bevor sie in Cloudflare R2 hochgeladen werden. Er verwaltet Speicherdateien, Cron-Jobs, Skills, Zugangsdaten und Konfigurations-Snapshots mit geplanten Backups und Ein-Kommando-Wiederherstellungen.