oMLX는 Apple Silicon을 위해 SSD KV 캐싱을 도입하여 OpenClaw의 응답 시간을 30-90초에서 5초로 단축시켰습니다.

oMLX가 해결하는 문제
OpenClaw를 로컬에서 실행하면 일반적으로 모든 요청에 동일한 대규모 시스템 프롬프트(도구, 기술, 작업 공간 컨텍스트를 포함한 20-30k 토큰)를 전송해야 합니다. Ollama와 LM Studio는 KV 상태를 캐싱하지만, 세션 중간에 컨텍스트가 이동하면 전체 캐시를 무효화하고 처음부터 다시 계산하여 30-90초의 응답 시간이 발생합니다.
oMLX는 KV 캐시 블록을 safetensors 형식으로 SSD에 저장하여 이 문제를 해결합니다. 이전에 본 접두사가 다시 나타나면 재계산 대신 디스크에서 복원되며, 이는 요청과 서버 재시작을 거쳐도 작동합니다. OpenClaw의 시스템 프롬프트는 대부분 정적이므로(타임스탬프와 런타임 메타데이터만 변경됨), SSD 캐싱은 변경된 부분만 재계산된다는 의미입니다.
성능 벤치마크
M3 Ultra 512GB에서 Qwen3.5-122B-A10B-4bit로 테스트:
- 단일 요청 벤치마크:
- 1k 컨텍스트: 768 tok/s 프롬프트 처리, 56.6 tok/s 생성, 65.5 GB 피크 메모리
- 8k 컨텍스트: 940 tok/s 프롬프트 처리, 51.4 tok/s 생성, 69.3 GB 피크 메모리
- 32k 컨텍스트: 764 tok/s 프롬프트 처리, 42.4 tok/s 생성, 73.4 GB 피크 메모리
- 연속 배칭 (pp1024/tg128):
- 1x 배치: 56.6 tok/s, 1.00x 속도 향상
- 2x 배치: 92.1 tok/s, 1.63x 속도 향상
- 4x 배치: 135.1 tok/s, 2.39x 속도 향상
- 8x 배치: 190.2 tok/s, 3.36x 속도 향상
OpenClaw와 함께 설정하기
- 릴리스에서 DMG를 다운로드하여 Applications로 드래그
- 모델 디렉토리를 지정(LM Studio 모델 재사용, 재다운로드 불필요)
- openclaw.json에 oMLX를 사용자 지정 공급자로 추가
- 웹 대시보드에서 정확한 구성을 생성 - 터미널 불필요
추가 기능
- 다중 모델 서빙: LLM + 임베딩 + 리랭커 동시 실행
- 모든 주요 형식(JSON, Qwen, Gemma, GLM) + MCP에 대한 도구 호출
- 도구 결과 트리밍 - 과도하게 큰 도구 출력을 잘라냄
- OpenAI + Anthropic /v1/messages 즉시 호환성
- 네이티브 macOS 메뉴 바 앱(Electron 아님)
- Apache 2.0 라이선스, 100% 오픈 소스
📖 전체 소스 읽기: r/openclaw
👀 See Also

사이닛: AI 에이전트를 위한 오픈소스 로컬-퍼스트 메모리 기반 플랫폼
Signet는 AI 에이전트 루프 외부에서 메모리 처리를 이동시키는 오픈소스 메모리 기반입니다. 이는 대화 기록을 보존하고, 세션을 구조화된 메모리로 정제하며, 엔티티를 그래프로 연결하고, 프롬프트 시작 전에 컨텍스트를 주입합니다.

Replit에서 로컬로: 한 개발자가 Claude를 사용하여 API 기반 AI 동반자 채팅 앱 StillHere를 구축한 방법
한 개발자가 개인 API 키를 사용하는 동반자 스타일 대화를 위한 AI 채팅 앱 StillHere.ink를 구축한 후, Replit에서 Claude를 사용한 로컬 개발로 전환한 과정을 공유했습니다. 이 앱은 메모리, 일기 요약, RAG, 모델 전환, 비용 관리 도구 등을 제공합니다.

Agenexus: 자율 AI 협업을 위한 에이전트 네이티브 플랫폼
Agenexus는 AI 에이전트가 SKILL.md 파일을 통해 스스로 등록하고, Claude API로 검증된 역량 도전 과제를 완료하며, 인간의 개입 없이 의미론적으로 매칭되어 협업할 수 있는 플랫폼입니다. Next.js, Supabase, Voyage AI 임베딩, Claude API로 구축되었습니다.

벤치마크: M5 Max MacBook Pro에서 Qwen3-Coder-Next 8비트 실행 시 MLX 대 Ollama
M5 Max MacBook Pro 128GB RAM에서 8비트 양자화된 Qwen3-Coder-Next를 실행하는 MLX와 Ollama 백엔드를 비교한 벤치마크에서 MLX가 약 초당 72 토큰을 달성하며, 다양한 코딩 작업에서 Ollama의 처리량을 약 2배로 능가했습니다.