미드레인지 하드웨어를 위한 터보퀀트 캐싱이 적용된 OpenClaw 로컬 에이전트 구현

OpenClaw 팀이 16GB RAM MacBook Air 및 Mac Mini와 같은 중급 하드웨어에서 로컬 에이전트 모델을 실행할 수 있는 원클릭 애플리케이션을 출시했습니다. 이 구현은 TurboQuant 캐시 압축과 컨텍스트 워밍 프로세스를 통합하여 평균적인 하드웨어에서 QWEN이나 GLM과 같은 정교한 에이전트 모델을 실행하는 과제를 해결합니다.
기술 구현 세부사항
이 솔루션은 몇 가지 핵심 구성 요소를 기반으로 합니다:
- TurboQuant 캐싱: Tom Turney의 llama.cpp TurboQuant 구현을 사용하며, QWEN 모델의 에이전트 도구 호출과 제대로 작동하도록 패치되었습니다.
- 컨텍스트 캐싱/워밍: 모델 시작 후 몇 분이 소요되지만 제한된 하드웨어에서 이후 원활한 요청 처리를 가능하게 하는 OpenClaw 전용 "워밍업" 프로세스를 구현합니다.
- 모델 지원: Google의 Gemma 4 추론 모델과 QWEN 3.5로 테스트되었으며, 둘 다 표준 M4 머신에서 유사한 성능을 보입니다.
성능 벤치마크
16GB 메모리 MacBook Air에서 테스트한 결과:
- 처리 속도: Gemma 4와 QWEN 3.5 모두 초당 약 10-15 토큰(tps)을 제공합니다
- 속도 비교: QWEN이 Gemma 4보다 약간 더 빠른 성능을 보입니다
- 추론 성능: 두 모델 간에 비슷하지만, 복잡한 작업이나 코딩에 대해서는 Anthropic 모델에 미치지 못합니다
- 클라우드 비교: 강력한 클라우드 모델보다 응답 속도가 2-3배 느립니다
실제 적용 분야
이 구현은 로컬 에이전트를 다음과 같은 용도로 실용화합니다:
- 속도가 중요하지 않은 일상적인 작업
- 저렴한 하드웨어(예: $600 Mac Mini)의 백그라운드 프로세스
- 몇 달 안에 비용을 회수할 수 있는 24/7 로컬 에이전트 배포
팀은 복잡한 작업에 대한 추론 성능이 아직 최고 수준의 클라우드 모델에 미치지 못하지만, 이는 소비자 하드웨어에서 실용적인 로컬 에이전트 배포로 가는 중요한 진전이라고 언급합니다.
📖 Read the full source: r/LocalLLaMA
👀 See Also

클로드 코드 아키텍처 분석: 유출된 소스 맵에서
Claude Code의 512,000줄에 달하는 TypeScript 코드베이스 분석 결과, Bun 기반 런타임에 React/Ink CLI, 100개 이상의 명령어, 38개 이상의 도구, 그리고 다중 에이전트 조정 기능이 포함된 것으로 나타났습니다. 이 시스템은 Zod를 검증에, OpenTelemetry를 원격 측정에 사용하며, 컨텍스트 압축 메커니즘을 포함하고 있습니다.

클로드 사용량 모니터: 윈도우용 부유형 CRT 위젯
한 개발자가 세션 및 주간 사용량 막대를 실시간으로 표시하는 Windows 위젯을 만들었으며, 일곱 가지 색상 테마를 제공하고 화면이 잠기거나 전체 화면 모드일 때 자동으로 일시 정지됩니다.

에이전트 관찰: Claude 코드 에이전트 팀 모니터링을 위한 실시간 대시보드
Agents Observe는 OTEL 대신 훅을 사용하여 Claude Code 에이전트 세션에 대한 실시간 가시성을 제공하는 로컬 대시보드입니다. 모든 도구 호출, 에이전트 계층 구조 및 이벤트를 필터링 및 검색 기능과 함께 캡처하며, Claude 세션과 함께 자동 시작되는 Docker 컨테이너로 실행됩니다.

Werld: 진화하는 신경망을 통한 개방형 인공 생명 시뮬레이션
Werld는 NEAT 신경망을 가진 에이전트들이 하드코딩된 규칙이나 보상 함수 없이 자신의 신경 구조, 감각 처리, 행동을 진화시키는 실시간 인공 생명 시뮬레이션입니다. 시뮬레이션은 64개의 감각 채널, 7개의 연속 모터 기능, 29개의 유전 가능한 게놈 특성을 가진 Watts-Strogatz 소세계 그래프 위에 30개의 에이전트로 시작됩니다.