vllm-mlx 포크는 로컬 AI 코딩 에이전트를 위한 도구 호출 및 프롬프트 캐시 기능을 추가합니다.

✍️ OpenClawRadar📅 게시일: February 26, 2026🔗 Source
vllm-mlx 포크는 로컬 AI 코딩 에이전트를 위한 도구 호출 및 프롬프트 캐시 기능을 추가합니다.
Ad

한 개발자가 Mac에서 OpenClaw와 같은 AI 코딩 에이전트를 로컬에서 실행하기 위한 여러 문제를 해결한 vllm-mlx의 수정 버전을 공개했습니다. 이 포크는 Apple Silicon용 OpenAI 호환 서버에 작동하는 도구 호출과 프롬프트 캐싱을 추가합니다.

주요 수정사항 및 기능

개발자는 특정 문제를 해결하기 위해 업스트림 vllm-mlx 위에 37개의 커밋을 수행했습니다:

  • 도구 호출: --tool-call-parser hermes 플래그 추가 — Qwen3-Coder-Next 도구 호출이 즉시 작동
  • MiniMax-M2.5: 스트리밍 및 비스트리밍 도구 호출 파싱 추가, 기능 호출 벤치마크(날씨, 검색, 코드 실행, 다중 도구)에서 4/4 정확도
  • 프롬프트 캐시: SimpleEngine에 요청 간 지속적인 KV 캐시 추가 — 동일한 시스템 프롬프트와 대화 기록은 새로운 토큰만 사전 채움
  • 추론 분리: 태그 없이 인라인으로 추론을 포함한 MiniMax 출력을 위한 휴리스틱 파서 구축 — 누출률을 60%에서 0%로 감소

성능 개선

33K 토큰 컨텍스트에서 첫 토큰까지의 시간(TTFT)이 캐시 히트 시 28초에서 0.3초로 개선되었습니다. Mac Studio M3 Ultra 256GB 기준 벤치마크:

  • Qwen3-Coder-Next 4비트: 42GB RAM, 70 tok/s 디코딩, 1270 tok/s 프리필
  • Qwen3-Coder-Next 6비트: 60GB RAM, 65 tok/s 디코딩, 1090-1440 tok/s 프리필
  • Qwen3-Coder-Next 8비트: 75GB RAM, ~45 tok/s 디코딩, ~900 tok/s 프리필
  • MiniMax-M2.5 4비트: 120GB RAM, 33-38 tok/s 디코딩, 430-500 tok/s 프리필

개발자는 대화형 코딩에 최적의 지점으로 Qwen3-Coder-Next 6비트를 권장하며, 품질이 4비트(가끔 왜곡된 출력 발생)보다 현저히 더 좋다고 언급했습니다.

Ad

설치 지침

pip install git+https://github.com/raullenchai/vllm-mlx.git
python -c "from mlx_lm import load; load('lmstudio-community/Qwen3-Coder-Next-MLX-6bit')"
python -m vllm_mlx.server \
  --model lmstudio-community/Qwen3-Coder-Next-MLX-6bit \
  --tool-call-parser hermes \
  --prefill-step-size 8192 \
  --kv-bits 8 \
  --port 8000

그런 다음 OpenClaw 또는 모든 OpenAI SDK 클라이언트를 http://localhost:8000/v1으로 지정하세요.

하드웨어 요구사항

  • Qwen3-Coder-Next 4비트: 42GB — M2 Pro 64GB 이상 필요
  • Qwen3-Coder-Next 6비트: 60GB — M2/M3/M4 Max 96GB+ 또는 Ultra 필요
  • MiniMax-M2.5: 120GB — Ultra 192GB+ 전용

작동하지 않은 사항

  • Qwen3-0.6B를 드래프트 모델로 한 추측 디코딩 — mlx-lm에 Qwen3 관련 알려진 버그 존재(토큰 건너뜀, 이슈 #846)
  • OpenClaw용 DeepSeek-R1-Distill-70B — 추론 능력은 뛰어나지만 도구 호출이 불안정함

이 저장소는 1500개 이상의 테스트를 포함하며 Apache 2.0 라이선스로 제공됩니다.

📖 전체 소스 읽기: r/LocalLLaMA

Ad

👀 See Also

메타 광고 MCP OAuth 작동하지만 대부분의 광고 계정은 아직 활성화되지 않음
Tools

메타 광고 MCP OAuth 작동하지만 대부분의 광고 계정은 아직 활성화되지 않음

Meta Ads MCP OAuth 흐름이 작동하고 29개의 도구가 로드되지만, ads_get_ad_accounts는 is_ads_mcp_enabled: false를 반환하며 기능이 점진적으로 출시되고 있다는 메시지를 표시합니다.

OpenClawRadar
Loom: 복잡한 AI 작업을 위한 로컬 실행 하네스
Tools

Loom: 복잡한 AI 작업을 위한 로컬 실행 하네스

Loom은 복잡한 작업을 관리하기 위해 설계된 오픈소스 로컬 실행 하네스로, 약 50개의 도구, 반복 가능한 워크플로우를 위한 커스텀 패키지 플러그인 시스템, CLI 및 MCP 서버 인터페이스를 제공하는 구조화된 프로세스를 제공합니다.

OpenClawRadar
OpenClaw 에이전트, 맞춤형 스킬로 전화 통화 기능 획득
Tools

OpenClaw 에이전트, 맞춤형 스킬로 전화 통화 기능 획득

한 개발자가 자체 호스팅 OpenClaw 에이전트를 위한 맞춤형 스킬을 만들어 전화 통화 기능을 추가했습니다. 이 스킬은 빌드 완료나 서버 장애 같은 트리거에 따라 에이전트가 전화를 걸 수 있게 해줍니다. 구현체는 웹 검색 및 알림 설정을 포함한 모든 채팅 기능을 갖춘 음성 상호작용을 제공합니다.

OpenClawRadar
에이전트 안전가옥: 로컬 AI 코딩 에이전트를 위한 macOS 네이티브 샌드박싱
Tools

에이전트 안전가옥: 로컬 AI 코딩 에이전트를 위한 macOS 네이티브 샌드박싱

Agent Safehouse는 macOS 네이티브 샌드박싱 도구로, 커널 수준의 강제 실행을 통해 로컬 AI 에이전트가 프로젝트 디렉토리 외부의 파일에 접근하는 것을 방지합니다. 이는 단일 셸 스크립트로 의존성이 없으며 Claude Code, Codex, OpenCode, Amp, Gemini CLI, Aider, Goose, Auggie, Pi, Cursor Agent, Cline, Kilo, Code Droid 및 기타 에이전트와 함께 작동합니다.

OpenClawRadar