MLX vs Ollama: Qwen3-Coder-Next 8비트 벤치마크 M5 Max

애플 실리콘에서 8비트 양자화된 동일한 Qwen3-Coder-Next 모델을 실행하는 두 개의 로컬 추론 백엔드—MLX(애플의 네이티브 ML 프레임워크)와 Ollama(llama.cpp 기반)—를 비교하는 벤치마크가 수행되었습니다. 목표는 실제 프로그래밍 작업에서 원시 처리량(초당 토큰 수), 첫 번째 토큰까지의 시간(TTFT), 그리고 전반적인 코딩 능력을 측정하는 것이었습니다.

방법론

설정은 다음과 같았습니다:

MLX 백엔드: mlx-lm v0.29.1이 내장된 OpenAI 호환 HTTP 서버(포트 8080)를 통해 mlx-community/Qwen3-Coder-Next-8bit를 제공합니다.
Ollama 백엔드: Ollama가 OpenAI 호환 API(포트 11434)를 통해 qwen3-coder-next:Q8_0를 제공합니다.

두 백엔드는 모두 스트리밍이 활성화된 OpenAI 클라이언트 라이브러리를 사용하는 동일한 Python 벤치마크 하니스를 통해 접근되었습니다. 각 테스트는 프롬프트당 3회 반복 실행되었으며, 결과는 평균화되었고 초기 콜드 스타트 프롬프트(모델 로드)에 대한 첫 번째 반복의 TTFT는 제외되었습니다.

테스트 스위트

여섯 개의 프롬프트가 다양한 코딩 작업을 다루었습니다:

짧은 완성: 회문 검사 함수 작성(최대 150 토큰)
중간 생성: 타입 힌트가 포함된 LRU 캐시 클래스 구현(최대 500 토큰)
긴 추론: 예제와 함께 async/await 대 스레딩 설명(최대 1000 토큰)
디버그 작업: 병합 정렬 및 이진 검색에서 버그 찾기 및 수정(최대 800 토큰)
복잡한 코딩: 컨텍스트 관리자가 있는 스레드 안전 경계 블로킹 큐(최대 1000 토큰)
코드 리뷰: 성능/정확성/스타일에 대해 3개의 함수 검토(최대 1000 토큰)

결과

128GB RAM이 탑재된 M5 Max에서의 처리량(초당 토큰 수):

짧은 완성: Ollama 32.51 토큰/초, MLX 69.62 토큰/초 (MLX +114%)
중간 생성: Ollama 35.97 토큰/초, MLX 78.28 토큰/초 (MLX +118%)
긴 추론: Ollama 40.45 토큰/초, MLX 78.29 토큰/초 (MLX +94%)
디버그 작업: Ollama 37.06 토큰/초, MLX 74.89 토큰/초 (MLX +102%)
복잡한 코딩: Ollama 35.84 토큰/초, MLX 76.99 토큰/초 (MLX +115%)
코드 리뷰: Ollama 39.00 토큰/초, MLX 74.98 토큰/초 (MLX +92%)

전체 평균: MLX는 약 초당 72 토큰을 달성하여 Ollama의 처리량을 약 2배로 능가했습니다. 측정된 지표에는 토큰/초(초당 생성된 출력 토큰, 높을수록 좋음), TTFT(요청 전송부터 첫 번째 토큰 수신까지의 시간, 낮을수록 좋음), 총 시간(전체 응답에 대한 실제 시간, 낮을수록 좋음), 그리고 psutil을 통해 측정된 메모리 사용량이 포함되었습니다.

📖 Read the full source: r/LocalLLaMA

벤치마크: M5 Max MacBook Pro에서 Qwen3-Coder-Next 8비트 실행 시 MLX 대 Ollama

방법론

테스트 스위트

결과

👀 See Also

클로드 코드 vs. 코덱스: 실제 빌드 테스트 – 36개 파일 대 28개 파일, 무한 루프, 0.46달러 비용 차이

사벤트 커맨더 48B: 12개의 증류 모델로 구성된 맞춤형 Qwen 3 전문가 혼합 모델

구조화된 추론 템플릿이 AI 코드 리뷰 정확도를 향상시킵니다

ClawMetry는 OpenClaw 에이전트에 종단 간 암호화를 적용한 원격 모니터링 기능을 추가합니다.