Qwen KV 캐시 양자화 심층 분석: PPL, KL 발산 및 비대칭 K/V 결과

✍️ OpenClawRadar📅 게시일: April 29, 2026🔗 Source
Qwen KV 캐시 양자화 심층 분석: PPL, KL 발산 및 비대칭 K/V 결과
Ad

M5 Max에서 TheTom TurboQuant 포크(feature/turboquant-kv-cache)를 사용한 Qwen 3.6-35B-A3B Q8의 KV 캐시 양자화 후속 벤치마크입니다. 이번 라운드는 perplexity, KL divergence, 비대칭 K/V 조합, 그리고 64K 깊이 데이터 포인트를 다룹니다.

품질 결과 (Perplexity + KL Divergence)

Context 크기 4096, wikitext-2 기준. f16을 logits의 기준선으로 사용했습니다.

  • q8_0: PPL 5.7433, KL 0.0016, top-1 토큰 일치율 98.64% — 4K 컨텍스트에서 실질적으로 무료(PPL 차이 -0.0005, ±0.036 stderr 이내).
  • turbo3 (~4.9x): PPL 5.8092, KL 0.0199, top-1 일치율 93.93% — PPL 약 1% 증가, 토큰 불일치 5%p.
  • turbo4 (~3.8x): PPL 5.7810, KL 0.0131, top-1 일치율 95.28% — q8_0과 turbo3 사이에 위치하며, 압축률과 일관됨.

품질 비용은 압축률에 비례하며, 특이점은 없습니다.

비대칭 K/V 스윕

llama-bench로 디코드 tok/s 측정, 대칭 스윕과 동일한 플래그 사용. 주요 설정:

  • -ctk q8_0 -ctv turbo4가 눈에 띕니다: 256K에서 대칭 q8_0 처리량과 일치(27.1 vs 26.6 tg), 대칭 q8_0이 OOM되는 512K에 적합. q8_0급 프리필과 turbo4급 컨텍스트 상한을 제공합니다.
  • -ctk q8_0 -ctv turbo3: 유사한 트릭이지만 디코드 성능이 더 나쁩니다(V 양자화가 더 타이트하여 생성 속도 저하).
  • -ctk f16 -ctv turbo4: Metal에서 작동 불가 — FlashAttention 커널이 이 조합을 빠르게 처리하지 못하고 일반 디퀀트-어텐션으로 폴백됩니다. 8K에서는 대칭 f16보다 34배 느리고, 128K에서는 78배 느립니다(4.1 t/s pp). 사용하지 마십시오.

깊이 128K에서 샘플 디코드 tok/s: q8_0 K/turbo4 V 41.0, q8_0 K/turbo3 V 38.2, f16 K/turbo4 V 2.8.

Ad

64K 깊이 행

깊이 65536에서 모든 7개 설정(pp512 / tg128 tok/s):

  • f16 대칭: 602.0 / 59.8
  • q8_0 대칭: 479.2 / 57.9
  • turbo3 대칭: 469.8 / 49.9
  • turbo4 대칭: 418.0 / 55.2
  • q8_0 K / turbo4 V: 468.2 / 55.9
  • q8_0 K / turbo3 V: 465.6 / 52.6
  • f16 K / turbo4 V: 8.3 / 4.9

프리필 곡선은 64K에서 거의 수렴했습니다: turbo3(470)이 q8_0(479)의 2% 이내. 대역폭 제한 영역은 64K와 128K 사이에서 시작됩니다.

업데이트된 권장 사항

코딩 에이전트(깊은 컨텍스트, 많은 생성 토큰)의 경우: -ctk q8_0 -ctv turbo4를 사용하세요. K에서는 q8_0 품질, V에서는 turbo4 절감, 512K에 적합. RAG 또는 배치 QA(무거운 프리필, 작은 디코드)의 경우 대칭 q8_0 또는 turbo4도 여전히 실행 가능합니다.

📖 전체 소스 읽기: r/LocalLLaMA

Ad

👀 See Also

DeepSeek V4 가격 현실 점검: Opus 대비 캐시 토큰 178배 저렴, 그러나 성능 격차 인정
News

DeepSeek V4 가격 현실 점검: Opus 대비 캐시 토큰 178배 저렴, 그러나 성능 격차 인정

DeepSeek V4 Pro 입력은 토큰 100만 개당 $0.145로, Claude Opus 4.7의 $5(34배 저렴)와 비교됩니다. 캐시 적중 시 $0.0036/$0.625(173배 저렴). 성능은 GPT-5.4 및 Gemini 3.1 Pro보다 3~6개월 뒤쳐집니다.

OpenClawRadar
버디가 클로드 에이전트로 직원 70%를 대체하는 30만 달러 이상의 역할을 거절 — 레딧, 도덕적·기술적 현실을 논쟁하다
News

버디가 클로드 에이전트로 직원 70%를 대체하는 30만 달러 이상의 역할을 거절 — 레딧, 도덕적·기술적 현실을 논쟁하다

Reddit 게시물이 워크플로우 매핑, Claude/GPT 에이전트 파이프라인 구축, 그리고 직원의 70%를 해고하는 'AI 전환 책임자' 역할을 거부한 친구에 대해 설명합니다. 게시자는 30만 달러 이상의 조건이 시간을 낭비하고 C-레벨의 망상이 무너지는 것을 지켜보기에 충분히 값지다고 주장합니다.

OpenClawRadar
클로드 연구 프리뷰, 작업 자동화를 위한 직접 컴퓨터 제어 기능 추가
News

클로드 연구 프리뷰, 작업 자동화를 위한 직접 컴퓨터 제어 기능 추가

Anthropic이 Claude가 직접 컴퓨터를 제어하여 앱 열기, 브라우저 탐색, 스프레드시트 채우기와 같은 작업을 완료할 수 있는 연구 프리뷰를 공개했습니다. macOS의 Pro 및 Max 사용자에게 제공되며, Claude Cowork 및 Claude Code를 통해 작동하며 모바일 페어링이 필요합니다.

OpenClawRadar
API 요구 사항에 맞는 최적의 토큰 제공자 선택하기
News

API 요구 사항에 맞는 최적의 토큰 제공자 선택하기

OpenClaw 커뮤니티의 인사이트를 바탕으로 AI 코딩 및 자동화에서 토큰과 API 제공자를 선택할 때 고려해야 할 핵심 요소를 살펴보세요.

OpenClawRadar