RunAnywhere RCLI: Apple Silicon용 온디바이스 음성 AI 파이프라인

RCLI의 기능
RCLI는 음성 인식, 대규모 언어 모델 추론, 텍스트 음성 변환을 Apple Silicon Mac에서 완전히 온디바이스로 실행하는 완전한 음성 AI 파이프라인입니다. M1 이상 칩에서 macOS 13+가 필요하며, 클라우드 서비스나 API 키 없이 작동합니다.
설치 및 설정
Homebrew를 통해 설치:
brew tap RunanywhereAI/rcli https://github.com/RunanywhereAI/RCLI.git
brew install rcli
rcli setup # 약 1GB 모델 다운로드
또는 curl 사용:
curl -fsSL https://raw.githubusercontent.com/RunanywhereAI/RCLI/main/install.sh | bash
성능 주장
개발자는 64GB RAM의 M4 Max에서 벤치마크를 수행하고 다음과 같이 보고했습니다:
- LLM 디코딩: llama.cpp보다 1.67배 빠름, Apple MLX보다 1.19배 빠름
- Qwen3-0.6B: 초당 658 토큰 (mlx-lm 552, llama.cpp 295 대비)
- Qwen3-4B: 초당 186 토큰 (mlx-lm 170, llama.cpp 87 대비)
- 첫 토큰까지 시간: 6.6ms
- STT: 70초 오디오를 101ms에 변환 (실시간 대비 714배, mlx-whisper보다 4.6배 빠름)
- TTS: 178ms 합성 (mlx-audio 및 sherpa-onnx보다 2.8배 빠름)
주요 기능
- 락 프리 링 버퍼를 사용한 세 개의 동시 스레드
- 더블 버퍼링 TTS (현재 문장 재생 중 다음 문장 렌더링)
- 음성으로 제어 가능한 38가지 macOS 동작
- 5,000개 이상 문서 청크에서 약 4ms 검색 속도의 로컬 RAG
- 20개의 핫 스왑 가능 모델
- 작업별 지연 시간 표시가 있는 전체 화면 TUI
- MetalRT가 설치되지 않은 경우 llama.cpp로 폴백
음성 파이프라인 구성 요소
- VAD: Silero 음성 활동 감지
- STT: Zipformer 스트리밍 + Whisper/Parakeet 오프라인
- LLM: KV 캐시 연속 및 Flash Attention을 지원하는 Qwen3/LFM2/Qwen3.5
- TTS: 더블 버퍼링 문장 수준 합성
- 도구 호출: LLM 네이티브 도구 호출 형식
- 다중 턴 메모리: 토큰 예산 트리밍이 있는 슬라이딩 윈도우 대화 기록
사용 명령어
rcli # 푸시 투 토크가 있는 대화형 TUI
rcli listen # 연속 음성 모드
rcli ask "open Safari" # 원샷 명령
rcli rag ingest ~/Documents/notes # RAG용 문서 색인
rcli ask --rag ~/Library/RCLI/index "summarize the project plan"
TUI 컨트롤
- SPACE: 푸시 투 토크
- M: LLM/STT/TTS 다운로드 및 핫 스왑을 위한 모델 브라우저
- A: macOS 동작 활성화/비활성화를 위한 동작 브라우저
- B: STT, LLM, TTS 및 엔드투엔드 벤치마크 실행
- R: RAG 문서 수집
- X: 대화 지우기 및 컨텍스트 재설정
- T: 도구 호출 추적 전환
- ESC: 중지/닫기/종료
MetalRT 엔진 상세 정보
MetalRT는 RunAnywhere의 독점 GPU 추론 엔진으로, M3, M3 Pro, M3 Max, M4 및 이후 칩에서 사용 가능한 Metal 3.1 기능을 사용합니다. M1/M2 지원이 계획되어 있습니다. 이 엔진은 양자화된 행렬 곱셈, 어텐션 및 활성화 연산을 위한 맞춤형 Metal 컴퓨트 셰이더를 사용하며, 사전 컴파일되어 추론 중 할당 없이 GPU에 직접 디스패치됩니다.
macOS 동작
RCLI는 다음 범주에 걸쳐 43가지 macOS 동작을 포함합니다:
- 생산성: create_note, create_reminder, run_shortcut
- 통신: send_message, facetime_call
- 미디어: play_on_spotify, play_apple_music, play_pause, next_track, set_music_volume
- 시스템: open_app, quit_app, set_volume, toggle_dark_mode, screenshot, lock_screen
- 웹: search_web, search_youtube, open_url, open_maps
📖 전체 소스 읽기: HN AI Agents
👀 See Also

Claude Code가 ToolSearch를 통해 도구 스키마를 지연 로딩하여 토큰을 절약합니다
Claude Code는 도구 스키마를 미리 로드하지 않고, 도구 이름만 먼저 전송한 후 사용 전에 ToolSearch 호출을 통해 스키마를 가져오도록 합니다. 이 아키텍처는 토큰 소모를 크게 줄여줍니다.

클로드용 법률 MCP 서버, 400만 건 이상의 미국 법원 판례 제공
Claude Code로 구축된 무료 오픈소스 MCP 서버가 Claude AI에 400만 개 이상의 실제 미국 법원 판례에 대한 접근을 제공하며, 판례 검색, 인용 추적, 블루북 파싱, Clio 실무 관리, PACER 연방 제출 문서 접근을 위한 18가지 도구를 제공하여 환각 현상 없이 법률 질의를 처리합니다.

로컬 AI VS Code 확장 기능은 저장 시 보안에 취약한 코드 생성을 차단합니다.
한 개발자가 VS Code 확장 프로그램을 만들어 로컬에서 llama3.1:8b-instruct-q4를 실행해 보안에 취약한 AI 생성 코드가 포함된 저장을 물리적으로 차단합니다. 이 도구는 Claude가 교과서적인 CWE-117(로그 주입) 취약점이 있는 Flask 경로를 생성한 후에 만들어졌습니다.

TRELLIS.2 이미지-3D 변환 기술, Apple Silicon에서 네이티브 실행으로 이식
한 개발자가 Microsoft의 40억 개 파라미터 TRELLIS.2 이미지-3D 모델을 PyTorch MPS를 통해 Apple Silicon에서 네이티브로 실행되도록 포팅했습니다. CUDA 전용 연산을 순수 PyTorch 대안으로 대체하여, M4 Pro(24GB 메모리)에서 단일 사진으로 약 40만 개 정점 메시를 약 3.5분 만에 생성합니다.