JANG 양자화 방법: MLX에서 대규모 모델 성능 2배 향상

MLX와 GGUF 양자화 간의 성능 격차

이 내용은 대규모 언어 모델에 대한 표준 MLX 양자화 방법의 심각한 성능 문제를 다룹니다. MMLU 벤치마크(200개 질문)에서, MLX용으로 4비트로 양자화된 MiniMax-M2.5는 26.5%(53/200)만 기록한 반면, JANG_2S 방법으로 양자화된 동일 모델은 74%(148/200)를 기록했습니다. JANG 방법은 모두 약 25%의 무작위 확률 수준에 가까운 점수를 기록한 모든 MLX 양자화 수준(2비트, 3비트, 4비트)을 능가했습니다.

세부 벤치마크 결과

상세한 MMLU 주제별 분석은 JANG_2L이 MLX 양자화를 지속적으로 능가함을 보여줍니다:

추상대수학: JANG_2L 10/20 vs MLX 4비트 3/20
천문학: JANG_2L 20/20 vs MLX 4비트 7/20
대학 컴퓨터 과학: JANG_2L 13/20 vs MLX 4비트 4/20
고등학교 생물학: JANG_2L 18/20 vs MLX 4비트 4/20

MLX 성능 저하의 근본 원인은 "MLX가 이 모델에서 직접적인 답변 대신 메타 코멘터리를 생성한다"는 점으로 확인되었습니다.

모델 크기 및 성능 비교

Qwen 3.5 122B 모델의 경우:

JANG_4K: 86% MMLU 점수, 69 GB 크기
MLX 4비트: 85% MMLU 점수, 64 GB 크기
JANG_2S: 79% MMLU 점수, 38 GB 크기
MLX 2비트: 56.5% MMLU 점수, 36 GB 크기

저자는 "사람들은 M 칩의 속도를 일관성과 맞바꾸며, MLX에는 GGUF에 상응하는 것이 없다"고 언급하고, "GGUF를 사용할 때 Mac의 Qwen 3.5는 MLX보다 1/3 느리다"고 덧붙였습니다.

MiniMax-M2.5 코드 생성 문제

인용된 벤치마크에서: "MiniMax-M2.5는 코드를 생성할 수 없습니다 — 87%의 도구 호출 및 80%의 추론 능력에도 불구하고 HumanEval+에서 10%만 기록했습니다. 코드 생성 형식에 문제가 있습니다. 추론에는 뛰어나지만."

가용성 및 구현

현재 다음을 통해 이용 가능합니다:

MLX Studio: https://mlx.studio/ - JANG_Q 추론 엔진이 내장되어 있음
저장소: 자체 설치 및 모델 양자화용

이 방법은 "이전에는 MLX에서 불가능했던 테스트 결과를 얻으면서도 2비트 MLX에 상응하는" MiniMax-M2.5와 같은 모델을 실행할 수 있게 합니다.

📖 Read the full source: r/LocalLLaMA

JANG 양자화 방법으로 대규모 모델의 MLX 성능 향상

MLX와 GGUF 양자화 간의 성능 격차

세부 벤치마크 결과

모델 크기 및 성능 비교

MiniMax-M2.5 코드 생성 문제

가용성 및 구현

👀 See Also

NerfGuard: 코딩 요청을 저렴한 모델로 라우팅하여 비용을 3배 절감하는 분류기

AI Doomsday Toolbox v0.932는 Android 로컬 AI를 위한 벤치마킹, 데이터셋 생성, 에이전트 작업 공간을 추가합니다.

ATLAS: Qwen3-14B의 프론티어 수준 코딩 성능을 달성한 오픈소스 테스트 타임 컴퓨팅 파이프라인

ClawBridge – OpenClaw를 통해 홈 어시스턴트 엔티티를 안전하게 공개하세요