Google Research stellt TurboQuant zur Komprimierung von KI-Modellen vor

✍️ OpenClawRadar📅 Veröffentlicht: 25. März 2026🔗 Source
Google Research stellt TurboQuant zur Komprimierung von KI-Modellen vor
Ad

Was TurboQuant leistet

TurboQuant ist eine Reihe fortschrittlicher Quantisierungsalgorithmen, die eine massive Komprimierung für große Sprachmodelle und Vektorsuchmaschinen ermöglichen. Es behebt speziell Engpässe im Key-Value-Cache – einem Hochgeschwindigkeitsspeichersystem, das häufig genutzte Informationen unter einfachen Bezeichnungen für den sofortigen Abruf speichert.

Wie es funktioniert

TurboQuant erreicht eine hohe Reduzierung der Modellgröße ohne Genauigkeitsverlust durch zwei Schlüsselschritte:

  • Hochwertige Komprimierung (PolarQuant-Methode): Beginnt mit der zufälligen Rotation von Datenvektoren, um die Geometrie zu vereinfachen, und wendet dann einen Standard-Quantisierer auf jeden Teil des Vektors einzeln an. Diese Stufe nutzt den größten Teil der Kompressionsleistung, um das Hauptkonzept und die Stärke des ursprünglichen Vektors zu erfassen.
  • Beseitigung versteckter Fehler: Verwendet eine kleine Restmenge an Kompressionsleistung (nur 1 Bit), um den QJL-Algorithmus auf die winzige Fehlermenge anzuwenden, die von der ersten Stufe übrig bleibt. QJL fungiert als mathematischer Fehlerprüfer, der Verzerrungen eliminiert und zu genaueren Aufmerksamkeitswerten führt.
Ad

Schlüsselkomponenten

QJL (Quantized Johnson-Lindenstrauss): Nutzt die Johnson-Lindenstrauss-Transformation, um hochdimensionale Daten zu verkleinern und dabei die Abstände zwischen Datenpunkten zu erhalten. Es reduziert jede resultierende Vektorzahl auf ein einzelnes Vorzeichenbit (+1 oder -1) ohne Speichermehraufwand. Verwendet einen speziellen Schätzer, der hochpräzise Abfragen mit niedrigpräzisen Daten ausbalanciert, um Aufmerksamkeitswerte genau zu berechnen.

PolarQuant: Behebt den Speichermehraufwand, indem Vektoren mithilfe eines kartesischen Koordinatensystems in Polarkoordinaten umgewandelt werden. Anstelle von Standardkoordinaten (X, Y, Z) verwendet es ein Format, das vergleichbar ist mit „Gehe insgesamt 5 Blöcke in einem Winkel von 37 Grad“ anstatt „Gehe 3 Blöcke nach Osten, 4 Blöcke nach Norden“.

Technischer Kontext

Traditionelle Vektorquantisierung führt typischerweise zu einem Speichermehraufwand von 1-2 zusätzlichen Bits pro Zahl, da Quantisierungskonstanten für jeden kleinen Datenblock gespeichert werden. TurboQuant begegnet dieser Herausforderung optimal. Die Techniken zeigten in Tests vielversprechende Ergebnisse bei der Reduzierung von Key-Value-Engpässen, ohne die Leistung von KI-Modellen zu beeinträchtigen.

TurboQuant wird auf der ICLR 2026 vorgestellt, während PolarQuant auf der AISTATS 2026 präsentiert wird.

📖 Read the full source: HN AI Agents

Ad

👀 Siehe auch

Claude Code wurde verwendet, um über 4.000 Blind-Werewolf-Spiele mit LLMs zu simulieren
Werkzeuge

Claude Code wurde verwendet, um über 4.000 Blind-Werewolf-Spiele mit LLMs zu simulieren

Ein Entwickler nutzte Claude Code, um einen Simulator zu erstellen, in dem LLMs blindes Ein-Nacht-Werwolf spielen, mit etwa 4.600 Spielen über OpenAI- und xAI-Modelle hinweg. Das Experiment zeigte konsistente namensbasierte Abstimmungsmuster trotz minimaler Spielsignale.

OpenClawRadar
Lokale Buchübersetzungs-Pipeline nutzt Qwen 32B und Mistral 24B mit kontextuellem RAG
Werkzeuge

Lokale Buchübersetzungs-Pipeline nutzt Qwen 32B und Mistral 24B mit kontextuellem RAG

Ein Entwickler hat eine vollständig lokale, automatisierte Buchübersetzungs-Pipeline erstellt, die PDF-Dateien mit acht Python-Skripten in das ePub-Format konvertiert. Das System nutzt Marker für die PDF-Extraktion, Qwen 32B für die Übersetzung mit einem globalen Glossar und Mistral 24B für das Styling.

OpenClawRadar
Memex: Open-Source Memory-Plugin für Claude Cowork
Werkzeuge

Memex: Open-Source Memory-Plugin für Claude Cowork

Memex ist ein Open-Source-Plugin, das Claude Cowork über Sitzungen hinweg persistenten Speicher mittels eines gestaffelten Kontextladungssystems verleiht. Nach einmaligem Ausführen von /memex:init fasst sich Claude pro Sitzung in etwa 20 Sekunden selbst zusammen und setzt dort fort, wo Sie aufgehört haben.

OpenClawRadar
Memento Vault: Lokales Tool für dauerhaften Kontext in Claude-Code-Sitzungen
Werkzeuge

Memento Vault: Lokales Tool für dauerhaften Kontext in Claude-Code-Sitzungen

Memento Vault ist ein Satz von Hooks, die automatisch Sitzungsprotokolle erfassen, bewerten und atomare Notizen in einem lokalen Git-Repo speichern. Es bietet Zero-Cost-Retrieval über BM25 + Vektorsuche mit durchschnittlich 472 ms Latenz und injiziert relevante Kontexte zu Sitzungsbeginn, bei jeder Eingabe und bei Dateizugriffen.

OpenClawRadar