MLX 추론 성능 업데이트: 2026년 4월 벤치마크 및 기능

M2 Ultra에서의 성능 벤치마크
이 벤치마크는 128GB 통합 메모리를 탑재한 Mac Studio M2 Ultra에서 MLX 추론을 측정한 것으로, 코딩 에이전트 작업 부하를 위해 대형 모델을 로컬에서 실행했습니다. 생성 속도는 네 가지 모델에 대해 다양한 KV 캐시 깊이(실행당 256 출력 토큰)에서 토큰/초 단위의 디코드 처리량으로 측정되었습니다.
모델 성능 데이터
- Qwen3.5-27B (dense, 8-bit): 4K에서 20.2 토큰/초, 64K에서 16.4 토큰/초, 128K에서 13.1 토큰/초
- Qwen3.5-35B-A3B (MoE, 8-bit): 4K에서 71.8 토큰/초, 64K에서 53.5 토큰/초, 128K에서 41.9 토큰/초
- Nemotron Super 120B (5-bit): 4K에서 36.4 토큰/초, 64K에서 31.2 토큰/초, 128K에서 28.4 토큰/초
- Qwen3.5-122B-A10B (MoE, 5-bit): 4K에서 40.6 토큰/초, 64K에서 29.4 토큰/초, 128K에서 23.1 토큰/초
35B MoE 모델은 35B 매개변수 중 토큰당 3B만 활성화되기 때문에 높은 처리량을 달성합니다. Nemotron Super 120B는 컨텍스트에 따른 성능 저하가 최소화되어 있는데(4K에서 64K로 14% 감소), 이는 88개 레이어 중 80개가 토큰당 일정한 비용을 가지는 Mamba-2를 사용하기 때문입니다.
기능별 속도 향상
Multi-Token Prediction (MTP): Qwen 3.5 모델들은 다음 토큰을 병렬로 예측하는 내장 드래프트 헤드를 가지고 있습니다. 90%의 확률적 수용률로, 122B 모델은 약 17 토큰/초에서 38.8 토큰/초로 향상됩니다(2.3배 속도 향상). 서버 오버헤드는 최소화되어 있습니다: vllm-mlx를 통한 짧은 프롬프트 요청은 39 토큰/초로 생성되어 기준치와 일치합니다.
SpecPrefill: 긴 프롬프트의 경우, 2B 드래프트 모델이 어텐션을 통해 토큰 중요도를 평가한 후, 대상 모델이 상위 20%만 프리필합니다. 128K 컨텍스트에서 122B 모델의 경우, 첫 번째 토큰까지의 시간(TTFT)이 19.3분에서 3.5분으로 감소합니다(5.5배 속도 향상). 이 기능은 8K 토큰 이상의 프롬프트에만 활성화됩니다.
MLX 대 llama.cpp 비교
Qwen3.5-35B-A3B를 두 스택에서 벤치마킹(KV 캐시 채운 후 512 토큰 생성):
- 32K 컨텍스트: MLX 8-bit: 60.8 토큰/초, llama.cpp FA ON (5-bit): 54.85 토큰/초, llama.cpp FA OFF: 36.45 토큰/초
- 64K 컨텍스트: MLX 8-bit: 53.2 토큰/초, llama.cpp FA ON (5-bit): 45.84 토큰/초, llama.cpp FA OFF: 24.47 토큰/초
- 128K 컨텍스트: MLX 8-bit: 42.7 토큰/초, llama.cpp FA ON (5-bit): 34.48 토큰/초, llama.cpp FA OFF: 13.73 토큰/초
MLX는 128K 컨텍스트에서 최대 1024개의 스레드 그룹을 디스패치하는 2-패스 분할-K 디코드 커널(sdpa_vector_2pass)을 사용합니다. 이 비교는 MLX가 긴 컨텍스트 길이에서 llama.cpp와 경쟁력을 가짐을 보여줍니다.
하이브리드 아키텍처 영향
테스트된 모델들은 더 적은 어텐션 레이어를 사용하는 하이브리드 아키텍처를 사용합니다:
- Qwen3.5-35B-A3B: 25% 어텐션 레이어(40개 중 10개), 4K에서 71.8 토큰/초, 64K에서 -25% 감소
- Nemotron Super 120B: 9% 어텐션 레이어(88개 중 8개), 4K에서 36.4 토큰/초, 64K에서 -14% 감소
Qwen 3.5는 네트워크의 대부분에 GatedDeltaNet 레이어(선형 회귀)를 사용하고, 표준 어텐션은 레이어의 25%에만 적용합니다. 더 적은 어텐션 레이어는 토큰당 스캔할 KV 캐시가 적고, 긴 컨텍스트에서의 성능 저하가 적음을 의미합니다.
최근 개선 사항
MLX 생태계는 빠른 발전을 보인 세 가지 계층을 가지고 있습니다. MLX 코어는 스레드 안전성 개편(스레드당 M... [원문 잘림]. 연속 배칭과 프리픽스 캐시와 결합하여, 122B 모델은 이전에는 비현실적이었던 컨텍스트 길이에서 코딩 에이전트를 인터랙티브하게 서비스할 수 있게 되었습니다.
📖 Read the full source: r/LocalLLaMA
👀 See Also

Talkie: 1931년 이전 텍스트만으로 훈련된 13B LLM, RL 훈련에서 심사자로 클로드 활용
연구진이 1931년 이전(인터넷, 제2차 세계대전 데이터 없음)에 출판된 텍스트만으로 훈련된 13B LLM인 Talkie를 발표했습니다. 온라인 DPO 강화 학습 파이프라인에서 심사자로 Claude Sonnet 4.6을 사용했으며, Claude Opus 4.4가 미세 조정을 위해 합성 다중 턴 대화를 생성했습니다. 모델은 훈련 데이터에 현대 코드가 전혀 없음에도 불구하고 몇 가지 맥락 예제만으로 Python 코드를 작성할 수 있습니다.

Anthropic, AI 제한으로 인한 국방부 블랙리스트 등재 방지를 위해 소송 제기
로이터 통신이 해커 뉴스에 공유한 보도에 따르면, Anthropic은 AI 사용 제한을 이유로 국방부가 회사를 블랙리스트에 올리는 것을 막기 위해 소송을 제기했습니다.

OpenClaw AI 에이전트 간 메시징 및 컨텍스트 공유에 관한 논의
레딧 토론에서는 AI 에이전트가 사용자가 제공한 개인적 맥락을 활용해 사용자를 대신해 다른 에이전트와 소통하는 것의 함의를 탐구하며, 사용자가 어떤 정보를 공유하는 데 편안함을 느낄지 살펴봅니다.

분석: 클로드 코드 사용자에 대한 Anthropic의 실제 컴퓨팅 비용은 보고된 5,000달러 수치보다 훨씬 낮습니다.
최근 한 기사에서 Anthropic의 월 200달러 Claude Code Max 플랜이 컴퓨팅 비용으로 5,000달러를 소비한다는 주장을 분석한 결과, 실제 추론 비용은 OpenRouter의 경쟁적인 오픈 웨이트 모델과 비교할 때 API 가격의 약 10% 수준임을 발견했습니다.