Qwen 3.6 27B 양자화 벤치마크: Q4_K_M vs Q8

Reddit 사용자가 Neo AI Engineer 프레임워크를 통해 llama-cpp-python을 사용하여 세 가지 GGUF 양자화 변형(BF16, Q4_K_M, Q8_0)에서 Qwen 3.6 27B를 벤치마킹했습니다. 평가는 세 가지 작업에 걸쳐 총 664개의 샘플을 대상으로 진행되었습니다: HumanEval(코드 생성, 164개 샘플), HellaSwag(상식 추론, 100개 샘플), BFCL(함수 호출, 400개 샘플).

벤치마크 결과

BF16 (모델 크기 53.8 GB, 최대 RAM 54 GB, 처리량 15.5 tok/s): HumanEval 56.10% (92/164), HellaSwag 90.00% (90/100), BFCL 63.25% (253/400). 평균 정확도: 69.78%.
Q4_K_M (16.8 GB, 28 GB RAM, 22.5 tok/s): HumanEval 50.61% (83/164), HellaSwag 86.00% (86/100), BFCL 63.00% (252/400). 평균: 66.54%.
Q8_0 (28.6 GB, 42 GB RAM, 18.0 tok/s): HumanEval 52.44% (86/164), HellaSwag 83.00% (83/100), BFCL 63.00% (252/400). 평균: 66.15%.

주요 시사점

Q4_K_M은 실용적으로 가장 뛰어난 변형입니다. BFCL 정확도를 유지하고(63.00% 대 63.25%), HumanEval에서 약 5.5포인트만 하락하며, HellaSwag에서는 BF16보다 약 4포인트 낮습니다. 트레이드오프: BF16보다 1.45배 빠름, 최대 RAM 48% 감소, 파일 크기 68.8% 감소, 거의 동일한 함수 호출 성능. Q8_0은 실망스러웠습니다: HumanEval에서 Q4_K_M보다 약 1.8포인트만 개선되었지만 42 GB RAM(28 GB 대비)을 사용하고 더 느렸으며 HellaSwag에서 더 낮은 점수를 기록했습니다.

로컬/CPU 배포의 경우, 작업 부하가 주로 코드 생성에 집중되지 않는다면 Q4_K_M을 권장합니다. 최고 품질을 위해서는 BF16이 여전히 우수합니다.

평가 설정

llama-cpp-python을 통한 GGUF 변형, n_ctx: 32768, 체크포인트 평가 사용. Neo AI Engineer 프레임워크가 GGUF 평가 파이프라인을 구축하고, 체크포인트 실행을 처리했으며, 결과를 통합했습니다. 전체 사례 연구 및 코드 조각은 원본 Reddit 댓글에 링크되어 있습니다.

📖 전체 출처 읽기: r/LocalLLaMA

Qwen 3.6 27B 양자화 벤치마크: 실용적 트레이드오프에서 Q4_K_M이 Q8_0을 앞서다

벤치마크 결과

주요 시사점

평가 설정

👀 See Also

홀라보스 AI 런타임, 타입스크립트로 전환 및 지속적 MCP 포트 구현

X-MCP 2.0: Claude용 X/Twitter API 접근 MCP 서버

Conduid: Claude로 구축된 MCP 서버를 위한 신뢰 인프라 계층

ClawControl v1.3.1은 미디어 지원, 음성 받아쓰기 및 Linux 패키징을 추가합니다.