vllm-mlx 포크는 로컬 AI 코딩 에이전트를 위한 도구 호출 및 프롬프트 캐시 기능을 추가합니다.

한 개발자가 Mac에서 OpenClaw와 같은 AI 코딩 에이전트를 로컬에서 실행하기 위한 여러 문제를 해결한 vllm-mlx의 수정 버전을 공개했습니다. 이 포크는 Apple Silicon용 OpenAI 호환 서버에 작동하는 도구 호출과 프롬프트 캐싱을 추가합니다.
주요 수정사항 및 기능
개발자는 특정 문제를 해결하기 위해 업스트림 vllm-mlx 위에 37개의 커밋을 수행했습니다:
- 도구 호출:
--tool-call-parser hermes플래그 추가 — Qwen3-Coder-Next 도구 호출이 즉시 작동 - MiniMax-M2.5: 스트리밍 및 비스트리밍 도구 호출 파싱 추가, 기능 호출 벤치마크(날씨, 검색, 코드 실행, 다중 도구)에서 4/4 정확도
- 프롬프트 캐시: SimpleEngine에 요청 간 지속적인 KV 캐시 추가 — 동일한 시스템 프롬프트와 대화 기록은 새로운 토큰만 사전 채움
- 추론 분리: 태그 없이 인라인으로 추론을 포함한 MiniMax 출력을 위한 휴리스틱 파서 구축 — 누출률을 60%에서 0%로 감소
성능 개선
33K 토큰 컨텍스트에서 첫 토큰까지의 시간(TTFT)이 캐시 히트 시 28초에서 0.3초로 개선되었습니다. Mac Studio M3 Ultra 256GB 기준 벤치마크:
- Qwen3-Coder-Next 4비트: 42GB RAM, 70 tok/s 디코딩, 1270 tok/s 프리필
- Qwen3-Coder-Next 6비트: 60GB RAM, 65 tok/s 디코딩, 1090-1440 tok/s 프리필
- Qwen3-Coder-Next 8비트: 75GB RAM, ~45 tok/s 디코딩, ~900 tok/s 프리필
- MiniMax-M2.5 4비트: 120GB RAM, 33-38 tok/s 디코딩, 430-500 tok/s 프리필
개발자는 대화형 코딩에 최적의 지점으로 Qwen3-Coder-Next 6비트를 권장하며, 품질이 4비트(가끔 왜곡된 출력 발생)보다 현저히 더 좋다고 언급했습니다.
설치 지침
pip install git+https://github.com/raullenchai/vllm-mlx.git
python -c "from mlx_lm import load; load('lmstudio-community/Qwen3-Coder-Next-MLX-6bit')"
python -m vllm_mlx.server \
--model lmstudio-community/Qwen3-Coder-Next-MLX-6bit \
--tool-call-parser hermes \
--prefill-step-size 8192 \
--kv-bits 8 \
--port 8000
그런 다음 OpenClaw 또는 모든 OpenAI SDK 클라이언트를 http://localhost:8000/v1으로 지정하세요.
하드웨어 요구사항
- Qwen3-Coder-Next 4비트: 42GB — M2 Pro 64GB 이상 필요
- Qwen3-Coder-Next 6비트: 60GB — M2/M3/M4 Max 96GB+ 또는 Ultra 필요
- MiniMax-M2.5: 120GB — Ultra 192GB+ 전용
작동하지 않은 사항
- Qwen3-0.6B를 드래프트 모델로 한 추측 디코딩 — mlx-lm에 Qwen3 관련 알려진 버그 존재(토큰 건너뜀, 이슈 #846)
- OpenClaw용 DeepSeek-R1-Distill-70B — 추론 능력은 뛰어나지만 도구 호출이 불안정함
이 저장소는 1500개 이상의 테스트를 포함하며 Apache 2.0 라이선스로 제공됩니다.
📖 전체 소스 읽기: r/LocalLLaMA
👀 See Also

메타 광고 MCP OAuth 작동하지만 대부분의 광고 계정은 아직 활성화되지 않음
Meta Ads MCP OAuth 흐름이 작동하고 29개의 도구가 로드되지만, ads_get_ad_accounts는 is_ads_mcp_enabled: false를 반환하며 기능이 점진적으로 출시되고 있다는 메시지를 표시합니다.

Loom: 복잡한 AI 작업을 위한 로컬 실행 하네스
Loom은 복잡한 작업을 관리하기 위해 설계된 오픈소스 로컬 실행 하네스로, 약 50개의 도구, 반복 가능한 워크플로우를 위한 커스텀 패키지 플러그인 시스템, CLI 및 MCP 서버 인터페이스를 제공하는 구조화된 프로세스를 제공합니다.

OpenClaw 에이전트, 맞춤형 스킬로 전화 통화 기능 획득
한 개발자가 자체 호스팅 OpenClaw 에이전트를 위한 맞춤형 스킬을 만들어 전화 통화 기능을 추가했습니다. 이 스킬은 빌드 완료나 서버 장애 같은 트리거에 따라 에이전트가 전화를 걸 수 있게 해줍니다. 구현체는 웹 검색 및 알림 설정을 포함한 모든 채팅 기능을 갖춘 음성 상호작용을 제공합니다.

에이전트 안전가옥: 로컬 AI 코딩 에이전트를 위한 macOS 네이티브 샌드박싱
Agent Safehouse는 macOS 네이티브 샌드박싱 도구로, 커널 수준의 강제 실행을 통해 로컬 AI 에이전트가 프로젝트 디렉토리 외부의 파일에 접근하는 것을 방지합니다. 이는 단일 셸 스크립트로 의존성이 없으며 Claude Code, Codex, OpenCode, Amp, Gemini CLI, Aider, Goose, Auggie, Pi, Cursor Agent, Cline, Kilo, Code Droid 및 기타 에이전트와 함께 작동합니다.