TurboQuant：Google ResearchがAIモデル圧縮アルゴリズムを発表

TurboQuantの機能

TurboQuantは、大規模言語モデルとベクトル検索エンジンのための大規模な圧縮を可能にする高度な量子化アルゴリズム群です。特に、頻繁に使用される情報をシンプルなラベルで即時検索できる高速ストレージシステムであるキーバリューキャッシュのボトルネックに対処します。

仕組み

TurboQuantは、以下の2つの主要なステップを通じて、精度の損失なしにモデルサイズを大幅に削減します：

高品質圧縮（PolarQuant法）：まずデータベクトルをランダムに回転させて幾何学的構造を単純化し、その後、ベクトルの各部分に標準的な量子化器を個別に適用します。この段階では、圧縮能力の大部分を使用して、元のベクトルの主要な概念と強度を捉えます。
隠れたエラーの排除：残りのわずかな圧縮能力（わずか1ビット）を使用して、最初の段階で残った微小なエラーにQJLアルゴリズムを適用します。QJLは数学的なエラーチェッカーとして機能し、バイアスを排除してより正確なアテンションスコアを導きます。

主要な構成要素

QJL（Quantized Johnson-Lindenstrauss）：Johnson-Lindenstrauss変換を使用して高次元データを縮小しながら、データポイント間の距離を保持します。結果として得られる各ベクトル数を単一の符号ビット（+1または-1）に削減し、メモリオーバーヘッドをゼロにします。高精度クエリと低精度データのバランスを取る特別な推定器を使用して、アテンションスコアを正確に計算します。

PolarQuant：デカルト座標系を使用してベクトルを極座標に変換することで、メモリオーバーヘッドに対処します。標準座標（X, Y, Z）の代わりに、「東に3ブロック、北に4ブロック進む」ではなく「合計5ブロックを37度の角度で進む」に相当する形式を使用します。

技術的背景

従来のベクトル量子化では、小さなデータブロックごとに量子化定数を保存するため、通常、数値ごとに1〜2ビットの追加メモリオーバーヘッドが発生します。TurboQuantはこの課題に最適に対処します。この技術は、AIモデルの性能を犠牲にすることなくキーバリューのボトルネックを軽減するテストで有望な結果を示しました。

TurboQuantはICLR 2026で発表される予定であり、PolarQuantはAISTATS 2026で発表されます。

📖 Read the full source: HN AI Agents