Qwen 3.6-35B-A3B KV 캐시 벤치마크: M5 Max에서 f16 vs q8

한 Reddit 사용자가 Qwen 3.6-35B-A3B Q8을 TheTom의 TurboQuant Metal 포크(GitHub: TheTom/llama-cpp-turboquant, 브랜치 feature/turboquant-kv-cache)를 사용하여 128GB 통합 메모리를 장착한 MacBook Pro M5 Max에서 심층 스윕을 실행했습니다. 0부터 1M 컨텍스트 토큰까지 f16, q8_0, turbo3(3비트), turbo4(4비트)의 네 가지 KV 캐시 유형(대칭형 K 및 V, flash-attn 켜짐, mlock 켜짐)을 테스트했습니다.

하드웨어 및 빌드

M5 Max, 128GB 통합 메모리. cmake -B build -DGGML_METAL=ON으로 빌드. llama-bench 사용, 셀당 3회 반복, flash-attn 켜짐, mlock 켜짐. 야간에 8시간 벽시계 시간 소요.

생성 처리량 (tok/s)

깊이	f16	q8_0	turbo3	turbo4
0	89.4	87.4	79.5	79.7
8K	84.2	79.2	72.2	71.2
32K	72.6	67.8	61.5	61.8
128K	44.4	40.7	36.0	37.7
256K	OOM	26.6	22.9	25.5
512K	OOM	OOM	13.3	16.0
1M	OOM	OOM	6.5	OOM

프롬프트 처리 처리량 (tok/s)

깊이	f16	q8_0	turbo3	turbo4
0	2962	2948	2904	2854
8K	2098	1623	1653	1439
32K	1063	802	784	678
128K	321	245	253	206
256K	OOM	124	128	101
512K	OOM	OOM	66	56
1M	OOM	OOM	30	OOM

주요 시사점

깊이 0에서 f16이 프리필에서 약간 앞서며 turbo3는 디코드에서 약 10% 느림.
128K에서 turbo3 프리필(253 tok/s)은 q8_0(245 tok/s)과 일치함 — 더 작은 캐시로 대역폭 압력 감소.
256K에서 turbo3가 프리필에서 turbo4보다 +27% 우세(128 대 101)하지만, 디코드에서는 turbo4가 +11% 우세(25.5 대 22.9). 512K에서는 디코드 격차가 +20%로 벌어짐(turbo4 16.0 대 turbo3 13.3).
turbo3만이 1M 컨텍스트에 맞는 유일한 캐시 유형임(6.5 tok/s 디코드). 1M에서 메모리: 약 89GB(가중치 37GB, KV 캐시 약 52GB).

워크로드 권장 사항

코딩 에이전트(깊은 컨텍스트, 많은 생성 토큰): turbo4
RAG / 배치 QA(무거운 프리필, 짧은 답변): turbo3
1M 컨텍스트: turbo3만
짧은 대화형(<32K): f16(가능한 경우) 또는 q8_0

주의사항

이는 단일 M5 Max 기준입니다. 메모리 대역폭과 GPU 코어에 따라 교차점이 변경될 수 있습니다. 대칭형 K/V만 테스트되었습니다. 비대칭 조합(예: -ctk q8_0 -ctv turbo4)은 벤치마크되지 않았습니다. TheTom의 포크는 연구 수준이며 llama.cpp 메인에 업스트림되지 않았습니다.

📖 전체 출처 읽기: r/LocalLLaMA