Apple Silicon 로컬 AI 코딩: vllm-mlx 포크 도구 호출 & 캐시 기능

한 개발자가 Mac에서 OpenClaw와 같은 AI 코딩 에이전트를 로컬에서 실행하기 위한 여러 문제를 해결한 vllm-mlx의 수정 버전을 공개했습니다. 이 포크는 Apple Silicon용 OpenAI 호환 서버에 작동하는 도구 호출과 프롬프트 캐싱을 추가합니다.

주요 수정사항 및 기능

개발자는 특정 문제를 해결하기 위해 업스트림 vllm-mlx 위에 37개의 커밋을 수행했습니다:

도구 호출: --tool-call-parser hermes 플래그 추가 — Qwen3-Coder-Next 도구 호출이 즉시 작동
MiniMax-M2.5: 스트리밍 및 비스트리밍 도구 호출 파싱 추가, 기능 호출 벤치마크(날씨, 검색, 코드 실행, 다중 도구)에서 4/4 정확도
프롬프트 캐시: SimpleEngine에 요청 간 지속적인 KV 캐시 추가 — 동일한 시스템 프롬프트와 대화 기록은 새로운 토큰만 사전 채움
추론 분리: 태그 없이 인라인으로 추론을 포함한 MiniMax 출력을 위한 휴리스틱 파서 구축 — 누출률을 60%에서 0%로 감소

성능 개선

33K 토큰 컨텍스트에서 첫 토큰까지의 시간(TTFT)이 캐시 히트 시 28초에서 0.3초로 개선되었습니다. Mac Studio M3 Ultra 256GB 기준 벤치마크:

Qwen3-Coder-Next 4비트: 42GB RAM, 70 tok/s 디코딩, 1270 tok/s 프리필
Qwen3-Coder-Next 6비트: 60GB RAM, 65 tok/s 디코딩, 1090-1440 tok/s 프리필
Qwen3-Coder-Next 8비트: 75GB RAM, ~45 tok/s 디코딩, ~900 tok/s 프리필
MiniMax-M2.5 4비트: 120GB RAM, 33-38 tok/s 디코딩, 430-500 tok/s 프리필

개발자는 대화형 코딩에 최적의 지점으로 Qwen3-Coder-Next 6비트를 권장하며, 품질이 4비트(가끔 왜곡된 출력 발생)보다 현저히 더 좋다고 언급했습니다.

설치 지침

pip install git+https://github.com/raullenchai/vllm-mlx.git
python -c "from mlx_lm import load; load('lmstudio-community/Qwen3-Coder-Next-MLX-6bit')"
python -m vllm_mlx.server \
  --model lmstudio-community/Qwen3-Coder-Next-MLX-6bit \
  --tool-call-parser hermes \
  --prefill-step-size 8192 \
  --kv-bits 8 \
  --port 8000

그런 다음 OpenClaw 또는 모든 OpenAI SDK 클라이언트를 http://localhost:8000/v1으로 지정하세요.

하드웨어 요구사항

Qwen3-Coder-Next 4비트: 42GB — M2 Pro 64GB 이상 필요
Qwen3-Coder-Next 6비트: 60GB — M2/M3/M4 Max 96GB+ 또는 Ultra 필요
MiniMax-M2.5: 120GB — Ultra 192GB+ 전용

작동하지 않은 사항

Qwen3-0.6B를 드래프트 모델로 한 추측 디코딩 — mlx-lm에 Qwen3 관련 알려진 버그 존재(토큰 건너뜀, 이슈 #846)
OpenClaw용 DeepSeek-R1-Distill-70B — 추론 능력은 뛰어나지만 도구 호출이 불안정함

이 저장소는 1500개 이상의 테스트를 포함하며 Apache 2.0 라이선스로 제공됩니다.

📖 전체 소스 읽기: r/LocalLLaMA

vllm-mlx 포크는 로컬 AI 코딩 에이전트를 위한 도구 호출 및 프롬프트 캐시 기능을 추가합니다.

주요 수정사항 및 기능

성능 개선

설치 지침

하드웨어 요구사항

작동하지 않은 사항

👀 See Also

GrapeRoot MCP 도구가 Claude 코드 토큰 사용량을 50-70% 감소시킵니다

Prefex: 프롬프트 캐싱과 세션 메모리 자동화를 위한 Claude 코드용 로컬 프록시

Claude Code의 Monitor 도구가 개발 서버 로그를 AI 기반 자동 수정으로 연결합니다

캐디: 슬랙 기반의 오픈클로 대안이 다음 주 출시됩니다