벤치마크: M5 Max MacBook Pro에서 Qwen3-Coder-Next 8비트 실행 시 MLX 대 Ollama

✍️ OpenClawRadar📅 게시일: April 16, 2026🔗 Source
벤치마크: M5 Max MacBook Pro에서 Qwen3-Coder-Next 8비트 실행 시 MLX 대 Ollama
Ad

애플 실리콘에서 8비트 양자화된 동일한 Qwen3-Coder-Next 모델을 실행하는 두 개의 로컬 추론 백엔드—MLX(애플의 네이티브 ML 프레임워크)와 Ollama(llama.cpp 기반)—를 비교하는 벤치마크가 수행되었습니다. 목표는 실제 프로그래밍 작업에서 원시 처리량(초당 토큰 수), 첫 번째 토큰까지의 시간(TTFT), 그리고 전반적인 코딩 능력을 측정하는 것이었습니다.

방법론

설정은 다음과 같았습니다:

  • MLX 백엔드: mlx-lm v0.29.1이 내장된 OpenAI 호환 HTTP 서버(포트 8080)를 통해 mlx-community/Qwen3-Coder-Next-8bit를 제공합니다.
  • Ollama 백엔드: Ollama가 OpenAI 호환 API(포트 11434)를 통해 qwen3-coder-next:Q8_0를 제공합니다.

두 백엔드는 모두 스트리밍이 활성화된 OpenAI 클라이언트 라이브러리를 사용하는 동일한 Python 벤치마크 하니스를 통해 접근되었습니다. 각 테스트는 프롬프트당 3회 반복 실행되었으며, 결과는 평균화되었고 초기 콜드 스타트 프롬프트(모델 로드)에 대한 첫 번째 반복의 TTFT는 제외되었습니다.

테스트 스위트

여섯 개의 프롬프트가 다양한 코딩 작업을 다루었습니다:

  • 짧은 완성: 회문 검사 함수 작성(최대 150 토큰)
  • 중간 생성: 타입 힌트가 포함된 LRU 캐시 클래스 구현(최대 500 토큰)
  • 긴 추론: 예제와 함께 async/await 대 스레딩 설명(최대 1000 토큰)
  • 디버그 작업: 병합 정렬 및 이진 검색에서 버그 찾기 및 수정(최대 800 토큰)
  • 복잡한 코딩: 컨텍스트 관리자가 있는 스레드 안전 경계 블로킹 큐(최대 1000 토큰)
  • 코드 리뷰: 성능/정확성/스타일에 대해 3개의 함수 검토(최대 1000 토큰)
Ad

결과

128GB RAM이 탑재된 M5 Max에서의 처리량(초당 토큰 수):

  • 짧은 완성: Ollama 32.51 토큰/초, MLX 69.62 토큰/초 (MLX +114%)
  • 중간 생성: Ollama 35.97 토큰/초, MLX 78.28 토큰/초 (MLX +118%)
  • 긴 추론: Ollama 40.45 토큰/초, MLX 78.29 토큰/초 (MLX +94%)
  • 디버그 작업: Ollama 37.06 토큰/초, MLX 74.89 토큰/초 (MLX +102%)
  • 복잡한 코딩: Ollama 35.84 토큰/초, MLX 76.99 토큰/초 (MLX +115%)
  • 코드 리뷰: Ollama 39.00 토큰/초, MLX 74.98 토큰/초 (MLX +92%)

전체 평균: MLX는 약 초당 72 토큰을 달성하여 Ollama의 처리량을 약 2배로 능가했습니다. 측정된 지표에는 토큰/초(초당 생성된 출력 토큰, 높을수록 좋음), TTFT(요청 전송부터 첫 번째 토큰 수신까지의 시간, 낮을수록 좋음), 총 시간(전체 응답에 대한 실제 시간, 낮을수록 좋음), 그리고 psutil을 통해 측정된 메모리 사용량이 포함되었습니다.

📖 Read the full source: r/LocalLLaMA

Ad

👀 See Also

DeepMind의 DiscoRL 메타 학습 업데이트 규칙이 JAX에서 PyTorch로 이식되었습니다
Tools

DeepMind의 DiscoRL 메타 학습 업데이트 규칙이 JAX에서 PyTorch로 이식되었습니다

한 개발자가 DeepMind의 DiscoRL 메타 학습 업데이트 규칙을 2025년 Nature 논문에서 JAX에서 PyTorch로 포팅했습니다. 이 구현에는 GitHub 저장소와 Colab 노트북, API, Hugging Face에 호스팅된 가중치가 포함되어 있습니다.

OpenClawRadar
클로드 코드, 다중 에이전트 코드 리뷰 시스템 추가
Tools

클로드 코드, 다중 에이전트 코드 리뷰 시스템 추가

Anthropic이 Claude Code를 위한 Code Review를 출시했습니다. 이는 풀 리퀘스트를 검토하기 위해 AI 에이전트 팀을 파견하는 다중 에이전트 시스템입니다. 이 시스템은 인간 검토자가 종종 놓치는 버그를 발견하며, 현재 54%의 PR이 실질적인 검토 코멘트를 받고 있어 이전 16%에 비해 크게 향상되었습니다.

OpenClawRadar
ToolLoop: 모든 LLM에 적용 가능한 Claude 스타일 도구를 위한 오픈소스 프레임워크
Tools

ToolLoop: 모든 LLM에 적용 가능한 Claude 스타일 도구를 위한 오픈소스 프레임워크

ToolLoop는 LiteLLM을 통해 모든 LLM과 작동하는 파일 작업, 코드 검색, 셸 접근 및 하위 에이전트를 위한 11가지 도구를 갖춘 오픈소스 Python 프레임워크입니다. 2,700줄의 이 프레임워크는 대화 중간에 모델을 전환하면서도 공유 컨텍스트를 유지할 수 있습니다.

OpenClawRadar
certctl: AI 에이전트 자동화를 위한 78개 API 엔드포인트를 갖춘 셀프 호스팅 인증서 수명 주기 플랫폼
Tools

certctl: AI 에이전트 자동화를 위한 78개 API 엔드포인트를 갖춘 셀프 호스팅 인증서 수명 주기 플랫폼

certctl은 Go와 TypeScript로 구축된 자체 호스팅 인증서 수명 주기 플랫폼으로, 인증서 관리를 위한 78개의 REST API 엔드포인트를 제공합니다. 이 플랫폼은 발급자와 대상에 구애받지 않으며, 모든 기능을 네이티브 MCP 도구로 노출할 MCP 서버를 계획 중입니다.

OpenClawRadar