Qwen KV 캐시 양자화 심층 분석: PPL, KL 발산 및 비대칭 K/V 결과

M5 Max에서 TheTom TurboQuant 포크(feature/turboquant-kv-cache)를 사용한 Qwen 3.6-35B-A3B Q8의 KV 캐시 양자화 후속 벤치마크입니다. 이번 라운드는 perplexity, KL divergence, 비대칭 K/V 조합, 그리고 64K 깊이 데이터 포인트를 다룹니다.
품질 결과 (Perplexity + KL Divergence)
Context 크기 4096, wikitext-2 기준. f16을 logits의 기준선으로 사용했습니다.
- q8_0: PPL 5.7433, KL 0.0016, top-1 토큰 일치율 98.64% — 4K 컨텍스트에서 실질적으로 무료(PPL 차이 -0.0005, ±0.036 stderr 이내).
- turbo3 (~4.9x): PPL 5.8092, KL 0.0199, top-1 일치율 93.93% — PPL 약 1% 증가, 토큰 불일치 5%p.
- turbo4 (~3.8x): PPL 5.7810, KL 0.0131, top-1 일치율 95.28% — q8_0과 turbo3 사이에 위치하며, 압축률과 일관됨.
품질 비용은 압축률에 비례하며, 특이점은 없습니다.
비대칭 K/V 스윕
llama-bench로 디코드 tok/s 측정, 대칭 스윕과 동일한 플래그 사용. 주요 설정:
-ctk q8_0 -ctv turbo4가 눈에 띕니다: 256K에서 대칭 q8_0 처리량과 일치(27.1 vs 26.6 tg), 대칭 q8_0이 OOM되는 512K에 적합. q8_0급 프리필과 turbo4급 컨텍스트 상한을 제공합니다.-ctk q8_0 -ctv turbo3: 유사한 트릭이지만 디코드 성능이 더 나쁩니다(V 양자화가 더 타이트하여 생성 속도 저하).-ctk f16 -ctv turbo4: Metal에서 작동 불가 — FlashAttention 커널이 이 조합을 빠르게 처리하지 못하고 일반 디퀀트-어텐션으로 폴백됩니다. 8K에서는 대칭 f16보다 34배 느리고, 128K에서는 78배 느립니다(4.1 t/s pp). 사용하지 마십시오.
깊이 128K에서 샘플 디코드 tok/s: q8_0 K/turbo4 V 41.0, q8_0 K/turbo3 V 38.2, f16 K/turbo4 V 2.8.
64K 깊이 행
깊이 65536에서 모든 7개 설정(pp512 / tg128 tok/s):
- f16 대칭: 602.0 / 59.8
- q8_0 대칭: 479.2 / 57.9
- turbo3 대칭: 469.8 / 49.9
- turbo4 대칭: 418.0 / 55.2
- q8_0 K / turbo4 V: 468.2 / 55.9
- q8_0 K / turbo3 V: 465.6 / 52.6
- f16 K / turbo4 V: 8.3 / 4.9
프리필 곡선은 64K에서 거의 수렴했습니다: turbo3(470)이 q8_0(479)의 2% 이내. 대역폭 제한 영역은 64K와 128K 사이에서 시작됩니다.
업데이트된 권장 사항
코딩 에이전트(깊은 컨텍스트, 많은 생성 토큰)의 경우: -ctk q8_0 -ctv turbo4를 사용하세요. K에서는 q8_0 품질, V에서는 turbo4 절감, 512K에 적합. RAG 또는 배치 QA(무거운 프리필, 작은 디코드)의 경우 대칭 q8_0 또는 turbo4도 여전히 실행 가능합니다.
📖 전체 소스 읽기: r/LocalLLaMA
👀 See Also

DeepSeek V4 가격 현실 점검: Opus 대비 캐시 토큰 178배 저렴, 그러나 성능 격차 인정
DeepSeek V4 Pro 입력은 토큰 100만 개당 $0.145로, Claude Opus 4.7의 $5(34배 저렴)와 비교됩니다. 캐시 적중 시 $0.0036/$0.625(173배 저렴). 성능은 GPT-5.4 및 Gemini 3.1 Pro보다 3~6개월 뒤쳐집니다.

버디가 클로드 에이전트로 직원 70%를 대체하는 30만 달러 이상의 역할을 거절 — 레딧, 도덕적·기술적 현실을 논쟁하다
Reddit 게시물이 워크플로우 매핑, Claude/GPT 에이전트 파이프라인 구축, 그리고 직원의 70%를 해고하는 'AI 전환 책임자' 역할을 거부한 친구에 대해 설명합니다. 게시자는 30만 달러 이상의 조건이 시간을 낭비하고 C-레벨의 망상이 무너지는 것을 지켜보기에 충분히 값지다고 주장합니다.

클로드 연구 프리뷰, 작업 자동화를 위한 직접 컴퓨터 제어 기능 추가
Anthropic이 Claude가 직접 컴퓨터를 제어하여 앱 열기, 브라우저 탐색, 스프레드시트 채우기와 같은 작업을 완료할 수 있는 연구 프리뷰를 공개했습니다. macOS의 Pro 및 Max 사용자에게 제공되며, Claude Cowork 및 Claude Code를 통해 작동하며 모바일 페어링이 필요합니다.

API 요구 사항에 맞는 최적의 토큰 제공자 선택하기
OpenClaw 커뮤니티의 인사이트를 바탕으로 AI 코딩 및 자동화에서 토큰과 API 제공자를 선택할 때 고려해야 할 핵심 요소를 살펴보세요.