oMLX, Apple Silicon용 SSD KV 캐싱 도입: 응답 시간 30-90초→5초 단축

oMLX가 해결하는 문제

OpenClaw를 로컬에서 실행하면 일반적으로 모든 요청에 동일한 대규모 시스템 프롬프트(도구, 기술, 작업 공간 컨텍스트를 포함한 20-30k 토큰)를 전송해야 합니다. Ollama와 LM Studio는 KV 상태를 캐싱하지만, 세션 중간에 컨텍스트가 이동하면 전체 캐시를 무효화하고 처음부터 다시 계산하여 30-90초의 응답 시간이 발생합니다.

oMLX는 KV 캐시 블록을 safetensors 형식으로 SSD에 저장하여 이 문제를 해결합니다. 이전에 본 접두사가 다시 나타나면 재계산 대신 디스크에서 복원되며, 이는 요청과 서버 재시작을 거쳐도 작동합니다. OpenClaw의 시스템 프롬프트는 대부분 정적이므로(타임스탬프와 런타임 메타데이터만 변경됨), SSD 캐싱은 변경된 부분만 재계산된다는 의미입니다.

성능 벤치마크

M3 Ultra 512GB에서 Qwen3.5-122B-A10B-4bit로 테스트:

단일 요청 벤치마크:
- 1k 컨텍스트: 768 tok/s 프롬프트 처리, 56.6 tok/s 생성, 65.5 GB 피크 메모리
- 8k 컨텍스트: 940 tok/s 프롬프트 처리, 51.4 tok/s 생성, 69.3 GB 피크 메모리
- 32k 컨텍스트: 764 tok/s 프롬프트 처리, 42.4 tok/s 생성, 73.4 GB 피크 메모리
연속 배칭 (pp1024/tg128):
- 1x 배치: 56.6 tok/s, 1.00x 속도 향상
- 2x 배치: 92.1 tok/s, 1.63x 속도 향상
- 4x 배치: 135.1 tok/s, 2.39x 속도 향상
- 8x 배치: 190.2 tok/s, 3.36x 속도 향상