Google Research stellt TurboQuant zur Komprimierung von KI-Modellen vor

Was TurboQuant leistet
TurboQuant ist eine Reihe fortschrittlicher Quantisierungsalgorithmen, die eine massive Komprimierung für große Sprachmodelle und Vektorsuchmaschinen ermöglichen. Es behebt speziell Engpässe im Key-Value-Cache – einem Hochgeschwindigkeitsspeichersystem, das häufig genutzte Informationen unter einfachen Bezeichnungen für den sofortigen Abruf speichert.
Wie es funktioniert
TurboQuant erreicht eine hohe Reduzierung der Modellgröße ohne Genauigkeitsverlust durch zwei Schlüsselschritte:
- Hochwertige Komprimierung (PolarQuant-Methode): Beginnt mit der zufälligen Rotation von Datenvektoren, um die Geometrie zu vereinfachen, und wendet dann einen Standard-Quantisierer auf jeden Teil des Vektors einzeln an. Diese Stufe nutzt den größten Teil der Kompressionsleistung, um das Hauptkonzept und die Stärke des ursprünglichen Vektors zu erfassen.
- Beseitigung versteckter Fehler: Verwendet eine kleine Restmenge an Kompressionsleistung (nur 1 Bit), um den QJL-Algorithmus auf die winzige Fehlermenge anzuwenden, die von der ersten Stufe übrig bleibt. QJL fungiert als mathematischer Fehlerprüfer, der Verzerrungen eliminiert und zu genaueren Aufmerksamkeitswerten führt.
Schlüsselkomponenten
QJL (Quantized Johnson-Lindenstrauss): Nutzt die Johnson-Lindenstrauss-Transformation, um hochdimensionale Daten zu verkleinern und dabei die Abstände zwischen Datenpunkten zu erhalten. Es reduziert jede resultierende Vektorzahl auf ein einzelnes Vorzeichenbit (+1 oder -1) ohne Speichermehraufwand. Verwendet einen speziellen Schätzer, der hochpräzise Abfragen mit niedrigpräzisen Daten ausbalanciert, um Aufmerksamkeitswerte genau zu berechnen.
PolarQuant: Behebt den Speichermehraufwand, indem Vektoren mithilfe eines kartesischen Koordinatensystems in Polarkoordinaten umgewandelt werden. Anstelle von Standardkoordinaten (X, Y, Z) verwendet es ein Format, das vergleichbar ist mit „Gehe insgesamt 5 Blöcke in einem Winkel von 37 Grad“ anstatt „Gehe 3 Blöcke nach Osten, 4 Blöcke nach Norden“.
Technischer Kontext
Traditionelle Vektorquantisierung führt typischerweise zu einem Speichermehraufwand von 1-2 zusätzlichen Bits pro Zahl, da Quantisierungskonstanten für jeden kleinen Datenblock gespeichert werden. TurboQuant begegnet dieser Herausforderung optimal. Die Techniken zeigten in Tests vielversprechende Ergebnisse bei der Reduzierung von Key-Value-Engpässen, ohne die Leistung von KI-Modellen zu beeinträchtigen.
TurboQuant wird auf der ICLR 2026 vorgestellt, während PolarQuant auf der AISTATS 2026 präsentiert wird.
📖 Read the full source: HN AI Agents
👀 Siehe auch

Claude Code wurde verwendet, um über 4.000 Blind-Werewolf-Spiele mit LLMs zu simulieren
Ein Entwickler nutzte Claude Code, um einen Simulator zu erstellen, in dem LLMs blindes Ein-Nacht-Werwolf spielen, mit etwa 4.600 Spielen über OpenAI- und xAI-Modelle hinweg. Das Experiment zeigte konsistente namensbasierte Abstimmungsmuster trotz minimaler Spielsignale.

Lokale Buchübersetzungs-Pipeline nutzt Qwen 32B und Mistral 24B mit kontextuellem RAG
Ein Entwickler hat eine vollständig lokale, automatisierte Buchübersetzungs-Pipeline erstellt, die PDF-Dateien mit acht Python-Skripten in das ePub-Format konvertiert. Das System nutzt Marker für die PDF-Extraktion, Qwen 32B für die Übersetzung mit einem globalen Glossar und Mistral 24B für das Styling.

Memex: Open-Source Memory-Plugin für Claude Cowork
Memex ist ein Open-Source-Plugin, das Claude Cowork über Sitzungen hinweg persistenten Speicher mittels eines gestaffelten Kontextladungssystems verleiht. Nach einmaligem Ausführen von /memex:init fasst sich Claude pro Sitzung in etwa 20 Sekunden selbst zusammen und setzt dort fort, wo Sie aufgehört haben.

Memento Vault: Lokales Tool für dauerhaften Kontext in Claude-Code-Sitzungen
Memento Vault ist ein Satz von Hooks, die automatisch Sitzungsprotokolle erfassen, bewerten und atomare Notizen in einem lokalen Git-Repo speichern. Es bietet Zero-Cost-Retrieval über BM25 + Vektorsuche mit durchschnittlich 472 ms Latenz und injiziert relevante Kontexte zu Sitzungsbeginn, bei jeder Eingabe und bei Dateizugriffen.