TurboQuant 캐싱 OpenClaw 로컬 에이전트 구현: 미드레인지 하드웨어에서 10-15 tok/s

처리 속도: Gemma 4와 QWEN 3.5 모두 초당 약 10-15 토큰(tps)을 제공합니다
속도 비교: QWEN이 Gemma 4보다 약간 더 빠른 성능을 보입니다
추론 성능: 두 모델 간에 비슷하지만, 복잡한 작업이나 코딩에 대해서는 Anthropic 모델에 미치지 못합니다
클라우드 비교: 강력한 클라우드 모델보다 응답 속도가 2-3배 느립니다

OpenClaw 팀이 16GB RAM MacBook Air 및 Mac Mini와 같은 중급 하드웨어에서 로컬 에이전트 모델을 실행할 수 있는 원클릭 애플리케이션을 출시했습니다. 이 구현은 TurboQuant 캐시 압축과 컨텍스트 워밍 프로세스를 통합하여 평균적인 하드웨어에서 QWEN이나 GLM과 같은 정교한 에이전트 모델을 실행하는 과제를 해결합니다.

기술 구현 세부사항

이 솔루션은 몇 가지 핵심 구성 요소를 기반으로 합니다:

TurboQuant 캐싱: Tom Turney의 llama.cpp TurboQuant 구현을 사용하며, QWEN 모델의 에이전트 도구 호출과 제대로 작동하도록 패치되었습니다.
컨텍스트 캐싱/워밍: 모델 시작 후 몇 분이 소요되지만 제한된 하드웨어에서 이후 원활한 요청 처리를 가능하게 하는 OpenClaw 전용 "워밍업" 프로세스를 구현합니다.
모델 지원: Google의 Gemma 4 추론 모델과 QWEN 3.5로 테스트되었으며, 둘 다 표준 M4 머신에서 유사한 성능을 보입니다.