Qwen KV 캐시 양자화 분석: PPL, KL 발산 및 비대칭 K/V 결과

M5 Max에서 TheTom TurboQuant 포크(feature/turboquant-kv-cache)를 사용한 Qwen 3.6-35B-A3B Q8의 KV 캐시 양자화 후속 벤치마크입니다. 이번 라운드는 perplexity, KL divergence, 비대칭 K/V 조합, 그리고 64K 깊이 데이터 포인트를 다룹니다.

품질 결과 (Perplexity + KL Divergence)

Context 크기 4096, wikitext-2 기준. f16을 logits의 기준선으로 사용했습니다.

q8_0: PPL 5.7433, KL 0.0016, top-1 토큰 일치율 98.64% — 4K 컨텍스트에서 실질적으로 무료(PPL 차이 -0.0005, ±0.036 stderr 이내).
turbo3 (~4.9x): PPL 5.8092, KL 0.0199, top-1 일치율 93.93% — PPL 약 1% 증가, 토큰 불일치 5%p.
turbo4 (~3.8x): PPL 5.7810, KL 0.0131, top-1 일치율 95.28% — q8_0과 turbo3 사이에 위치하며, 압축률과 일관됨.

품질 비용은 압축률에 비례하며, 특이점은 없습니다.

비대칭 K/V 스윕

llama-bench로 디코드 tok/s 측정, 대칭 스윕과 동일한 플래그 사용. 주요 설정:

-ctk q8_0 -ctv turbo4가 눈에 띕니다: 256K에서 대칭 q8_0 처리량과 일치(27.1 vs 26.6 tg), 대칭 q8_0이 OOM되는 512K에 적합. q8_0급 프리필과 turbo4급 컨텍스트 상한을 제공합니다.
-ctk q8_0 -ctv turbo3: 유사한 트릭이지만 디코드 성능이 더 나쁩니다(V 양자화가 더 타이트하여 생성 속도 저하).
-ctk f16 -ctv turbo4: Metal에서 작동 불가 — FlashAttention 커널이 이 조합을 빠르게 처리하지 못하고 일반 디퀀트-어텐션으로 폴백됩니다. 8K에서는 대칭 f16보다 34배 느리고, 128K에서는 78배 느립니다(4.1 t/s pp). 사용하지 마십시오.

깊이 128K에서 샘플 디코드 tok/s: q8_0 K/turbo4 V 41.0, q8_0 K/turbo3 V 38.2, f16 K/turbo4 V 2.8.

64K 깊이 행

깊이 65536에서 모든 7개 설정(pp512 / tg128 tok/s):

f16 대칭: 602.0 / 59.8
q8_0 대칭: 479.2 / 57.9
turbo3 대칭: 469.8 / 49.9
turbo4 대칭: 418.0 / 55.2
q8_0 K / turbo4 V: 468.2 / 55.9
q8_0 K / turbo3 V: 465.6 / 52.6
f16 K / turbo4 V: 8.3 / 4.9

프리필 곡선은 64K에서 거의 수렴했습니다: turbo3(470)이 q8_0(479)의 2% 이내. 대역폭 제한 영역은 64K와 128K 사이에서 시작됩니다.

업데이트된 권장 사항

코딩 에이전트(깊은 컨텍스트, 많은 생성 토큰)의 경우: -ctk q8_0 -ctv turbo4를 사용하세요. K에서는 q8_0 품질, V에서는 turbo4 절감, 512K에 적합. RAG 또는 배치 QA(무거운 프리필, 작은 디코드)의 경우 대칭 q8_0 또는 turbo4도 여전히 실행 가능합니다.

📖 전체 소스 읽기: r/LocalLLaMA