TurboQuant: Google AI 모델 압축으로 정확도 유지

TurboQuant의 기능

TurboQuant는 대규모 언어 모델과 벡터 검색 엔진을 위한 대규모 압축을 가능하게 하는 고급 양자화 알고리즘 세트입니다. 이는 특히 키-값 캐시의 병목 현상을 해결합니다. 키-값 캐시는 자주 사용되는 정보를 간단한 레이블 아래에 저장하여 즉시 검색할 수 있도록 하는 고속 저장 시스템입니다.

작동 방식

TurboQuant는 두 가지 주요 단계를 통해 정확도 손실 없이 모델 크기를 크게 줄입니다:

고품질 압축 (PolarQuant 방법): 먼저 데이터 벡터를 무작위로 회전시켜 기하학을 단순화한 다음, 벡터의 각 부분에 표준 양자화기를 개별적으로 적용합니다. 이 단계에서는 원본 벡터의 주요 개념과 강점을 포착하기 위해 대부분의 압축 능력을 사용합니다.
숨겨진 오류 제거: 첫 번째 단계에서 남은 미세한 오류에 QJL 알고리즘을 적용하기 위해 작은 잔여 압축 능력(단 1비트)을 사용합니다. QJL은 편향을 제거하여 더 정확한 어텐션 점수를 도출하는 수학적 오류 검사기 역할을 합니다.

핵심 구성 요소

QJL (Quantized Johnson-Lindenstrauss): Johnson-Lindenstrauss 변환을 사용하여 데이터 포인트 간 거리를 보존하면서 고차원 데이터를 축소합니다. 이는 각 결과 벡터 숫자를 단일 부호 비트(+1 또는 -1)로 줄이며 메모리 오버헤드가 없습니다. 고정밀 쿼리와 저정밀 데이터를 균형 있게 조정하여 어텐션 점수를 정확하게 계산하는 특별한 추정기를 사용합니다.

PolarQuant: 직교 좌표계를 사용하여 벡터를 극좌표로 변환함으로써 메모리 오버헤드를 해결합니다. 표준 좌표(X, Y, Z) 대신 "동쪽으로 3블록, 북쪽으로 4블록 이동"보다는 "총 5블록을 37도 각도로 이동"과 유사한 형식을 사용합니다.

기술적 배경

기존의 벡터 양자화는 일반적으로 모든 작은 데이터 블록에 대한 양자화 상수를 저장하기 때문에 숫자당 1-2비트의 추가 메모리 오버헤드를 발생시킵니다. TurboQuant는 이 문제를 최적으로 해결합니다. 이 기술은 AI 모델 성능을 희생하지 않고 키-값 병목 현상을 줄이는 테스트에서 유망한 결과를 보였습니다.

TurboQuant는 ICLR 2026에서 발표될 예정이며, PolarQuant는 AISTATS 2026에서 발표될 예정입니다.

📖 Read the full source: HN AI Agents