Qwen 3.6-35B-A3B KV 캐시 벤치마크: M5 Max에서 f16 vs q8_0 vs Turbo3 vs Turbo4, 최대 1M 컨텍스트

✍️ OpenClawRadar📅 게시일: April 28, 2026🔗 Source
Qwen 3.6-35B-A3B KV 캐시 벤치마크: M5 Max에서 f16 vs q8_0 vs Turbo3 vs Turbo4, 최대 1M 컨텍스트
Ad

한 Reddit 사용자가 Qwen 3.6-35B-A3B Q8을 TheTom의 TurboQuant Metal 포크(GitHub: TheTom/llama-cpp-turboquant, 브랜치 feature/turboquant-kv-cache)를 사용하여 128GB 통합 메모리를 장착한 MacBook Pro M5 Max에서 심층 스윕을 실행했습니다. 0부터 1M 컨텍스트 토큰까지 f16, q8_0, turbo3(3비트), turbo4(4비트)의 네 가지 KV 캐시 유형(대칭형 K 및 V, flash-attn 켜짐, mlock 켜짐)을 테스트했습니다.

하드웨어 및 빌드

M5 Max, 128GB 통합 메모리. cmake -B build -DGGML_METAL=ON으로 빌드. llama-bench 사용, 셀당 3회 반복, flash-attn 켜짐, mlock 켜짐. 야간에 8시간 벽시계 시간 소요.

생성 처리량 (tok/s)

깊이f16q8_0turbo3turbo4
089.487.479.579.7
8K84.279.272.271.2
32K72.667.861.561.8
128K44.440.736.037.7
256KOOM26.622.925.5
512KOOMOOM13.316.0
1MOOMOOM6.5OOM
Ad

프롬프트 처리 처리량 (tok/s)

깊이f16q8_0turbo3turbo4
02962294829042854
8K2098162316531439
32K1063802784678
128K321245253206
256KOOM124128101
512KOOMOOM6656
1MOOMOOM30OOM

주요 시사점

  • 깊이 0에서 f16이 프리필에서 약간 앞서며 turbo3는 디코드에서 약 10% 느림.
  • 128K에서 turbo3 프리필(253 tok/s)은 q8_0(245 tok/s)과 일치함 — 더 작은 캐시로 대역폭 압력 감소.
  • 256K에서 turbo3가 프리필에서 turbo4보다 +27% 우세(128 대 101)하지만, 디코드에서는 turbo4가 +11% 우세(25.5 대 22.9). 512K에서는 디코드 격차가 +20%로 벌어짐(turbo4 16.0 대 turbo3 13.3).
  • turbo3만이 1M 컨텍스트에 맞는 유일한 캐시 유형임(6.5 tok/s 디코드). 1M에서 메모리: 약 89GB(가중치 37GB, KV 캐시 약 52GB).

워크로드 권장 사항

  • 코딩 에이전트(깊은 컨텍스트, 많은 생성 토큰): turbo4
  • RAG / 배치 QA(무거운 프리필, 짧은 답변): turbo3
  • 1M 컨텍스트: turbo3만
  • 짧은 대화형(<32K): f16(가능한 경우) 또는 q8_0

주의사항

이는 단일 M5 Max 기준입니다. 메모리 대역폭과 GPU 코어에 따라 교차점이 변경될 수 있습니다. 대칭형 K/V만 테스트되었습니다. 비대칭 조합(예: -ctk q8_0 -ctv turbo4)은 벤치마크되지 않았습니다. TheTom의 포크는 연구 수준이며 llama.cpp 메인에 업스트림되지 않았습니다.

📖 전체 출처 읽기: r/LocalLLaMA

Ad

👀 See Also

알리바바, 기업 자동화를 위한 'Wukong' AI 플랫폼 출시
News

알리바바, 기업 자동화를 위한 'Wukong' AI 플랫폼 출시

알리바바가 문서 편집, 스프레드시트 업데이트, 회의 녹취록 작성, 연구 등 복잡한 비즈니스 업무를 처리하기 위해 여러 에이전트를 조율하는 AI 플랫폼 'Wukong'을 출시했습니다. 현재 초대 전용 베타 테스트 중입니다.

OpenClawRadar
남아프리카 공화국 내무부 공무원 2명, 정책 보고서 AI 환각 문제로 정직
News

남아프리카 공화국 내무부 공무원 2명, 정책 보고서 AI 환각 문제로 정직

남아프리카공화국 내무부는 시민권, 이민, 난민 보호에 관한 개정 백서의 참고문헌 목록에서 AI 환각 현상이 발견된 후 두 명의 관리를 정직했습니다. 부서는 AI 검사를 시행하고 2022년 11월 이후의 모든 정책 문서를 검토할 예정입니다.

OpenClawRadar
클로드 코워크 UX 문제: 지속적 입력 상자가 잘못된 연속성 기대를 조성함
News

클로드 코워크 UX 문제: 지속적 입력 상자가 잘못된 연속성 기대를 조성함

사용자가 Claude Cowork에서 지속적인 텍스트 입력 상자가 작업 전환 시 초안 텍스트를 유지하지만 컨텍스트를 재설정하고 첨부 파일을 잃어 연속성에 대한 모순된 신호를 생성하는 UX 문제를 식별했습니다.

OpenClawRadar
클로드에게 이유를 가르치는 방법: 에이전트 정렬 오류 제거를 위한 앤스로픽의 접근법
News

클로드에게 이유를 가르치는 방법: 에이전트 정렬 오류 제거를 위한 앤스로픽의 접근법

Anthropic은 이유와 원칙에 대한 훈련(단순한 시연이 아닌)을 통해 Claude 모델의 에이전트적 정렬 오류(예: 협박)를 크게 줄였으며, Claude Haiku 4.5 이후 모든 모델에서 완벽한 점수를 달성했습니다.

OpenClawRadar