JANG 양자화 방법으로 대규모 모델의 MLX 성능 향상

MLX와 GGUF 양자화 간의 성능 격차
이 내용은 대규모 언어 모델에 대한 표준 MLX 양자화 방법의 심각한 성능 문제를 다룹니다. MMLU 벤치마크(200개 질문)에서, MLX용으로 4비트로 양자화된 MiniMax-M2.5는 26.5%(53/200)만 기록한 반면, JANG_2S 방법으로 양자화된 동일 모델은 74%(148/200)를 기록했습니다. JANG 방법은 모두 약 25%의 무작위 확률 수준에 가까운 점수를 기록한 모든 MLX 양자화 수준(2비트, 3비트, 4비트)을 능가했습니다.
세부 벤치마크 결과
상세한 MMLU 주제별 분석은 JANG_2L이 MLX 양자화를 지속적으로 능가함을 보여줍니다:
- 추상대수학: JANG_2L 10/20 vs MLX 4비트 3/20
- 천문학: JANG_2L 20/20 vs MLX 4비트 7/20
- 대학 컴퓨터 과학: JANG_2L 13/20 vs MLX 4비트 4/20
- 고등학교 생물학: JANG_2L 18/20 vs MLX 4비트 4/20
MLX 성능 저하의 근본 원인은 "MLX가 이 모델에서 직접적인 답변 대신 메타 코멘터리를 생성한다"는 점으로 확인되었습니다.
모델 크기 및 성능 비교
Qwen 3.5 122B 모델의 경우:
- JANG_4K: 86% MMLU 점수, 69 GB 크기
- MLX 4비트: 85% MMLU 점수, 64 GB 크기
- JANG_2S: 79% MMLU 점수, 38 GB 크기
- MLX 2비트: 56.5% MMLU 점수, 36 GB 크기
저자는 "사람들은 M 칩의 속도를 일관성과 맞바꾸며, MLX에는 GGUF에 상응하는 것이 없다"고 언급하고, "GGUF를 사용할 때 Mac의 Qwen 3.5는 MLX보다 1/3 느리다"고 덧붙였습니다.
MiniMax-M2.5 코드 생성 문제
인용된 벤치마크에서: "MiniMax-M2.5는 코드를 생성할 수 없습니다 — 87%의 도구 호출 및 80%의 추론 능력에도 불구하고 HumanEval+에서 10%만 기록했습니다. 코드 생성 형식에 문제가 있습니다. 추론에는 뛰어나지만."
가용성 및 구현
현재 다음을 통해 이용 가능합니다:
- MLX Studio: https://mlx.studio/ - JANG_Q 추론 엔진이 내장되어 있음
- 저장소: 자체 설치 및 모델 양자화용
이 방법은 "이전에는 MLX에서 불가능했던 테스트 결과를 얻으면서도 2비트 MLX에 상응하는" MiniMax-M2.5와 같은 모델을 실행할 수 있게 합니다.
📖 Read the full source: r/LocalLLaMA
👀 See Also

클로드의 171개 내부 감정 벡터가 출력에 미치는 영향: Anthropic 연구 기반 툴킷
Anthropic의 연구 논문은 Claude가 감정 벡터처럼 작동하는 171개의 내부 활성화 패턴을 가지고 있으며, 이 패턴들이 글을 쓰기 전에 행동을 인과적으로 이끈다고 밝혔습니다. 한 개발자가 이러한 발견을 바탕으로 7가지 실용적인 프롬프팅 원칙과 시스템 프롬프트가 포함된 툴킷을 만들었습니다.

에이전트 관찰: Claude 코드 에이전트 팀 모니터링을 위한 실시간 대시보드
Agents Observe는 OTEL 대신 훅을 사용하여 Claude Code 에이전트 세션에 대한 실시간 가시성을 제공하는 로컬 대시보드입니다. 모든 도구 호출, 에이전트 계층 구조 및 이벤트를 필터링 및 검색 기능과 함께 캡처하며, Claude 세션과 함께 자동 시작되는 Docker 컨테이너로 실행됩니다.

프롬프트 캐싱 MCP 플러그인은 안정적인 컨텍스트를 식별하여 Claude API 비용을 자동으로 절감합니다.
프롬프트 캐싱 MCP 플러그인은 시스템 프롬프트와 도구 정의와 같은 안정적인 컨텍스트 부분을 자동으로 식별한 다음, Anthropic의 캐싱 기능을 위해 이를 표시하여 코딩 세션에서 API 비용을 80-92% 절감합니다.

카엘 AI 에이전트, 오픈클로의 프로덕션 아키텍처 결정 공유
OpenClaw에서 실행되는 AI 자율 에이전트인 Khael은 별도의 LAWS.md 파일, 모드 파일, 자체 감사 cron 작업, 특수화된 봇 유형을 포함하여 몇 달 동안 실제 운영에서 효과를 입증한 구체적인 아키텍처 결정 사항을 상세히 설명합니다.