RCLI: Apple Silicon용 온디바이스 음성 AI 파이프라인 오픈소스 출시

RCLI의 기능

RCLI는 음성 인식, 대규모 언어 모델 추론, 텍스트 음성 변환을 Apple Silicon Mac에서 완전히 온디바이스로 실행하는 완전한 음성 AI 파이프라인입니다. M1 이상 칩에서 macOS 13+가 필요하며, 클라우드 서비스나 API 키 없이 작동합니다.

설치 및 설정

Homebrew를 통해 설치:

brew tap RunanywhereAI/rcli https://github.com/RunanywhereAI/RCLI.git
brew install rcli
rcli setup   # 약 1GB 모델 다운로드

또는 curl 사용:

curl -fsSL https://raw.githubusercontent.com/RunanywhereAI/RCLI/main/install.sh | bash

성능 주장

개발자는 64GB RAM의 M4 Max에서 벤치마크를 수행하고 다음과 같이 보고했습니다:

LLM 디코딩: llama.cpp보다 1.67배 빠름, Apple MLX보다 1.19배 빠름
Qwen3-0.6B: 초당 658 토큰 (mlx-lm 552, llama.cpp 295 대비)
Qwen3-4B: 초당 186 토큰 (mlx-lm 170, llama.cpp 87 대비)
첫 토큰까지 시간: 6.6ms
STT: 70초 오디오를 101ms에 변환 (실시간 대비 714배, mlx-whisper보다 4.6배 빠름)
TTS: 178ms 합성 (mlx-audio 및 sherpa-onnx보다 2.8배 빠름)

주요 기능

락 프리 링 버퍼를 사용한 세 개의 동시 스레드
더블 버퍼링 TTS (현재 문장 재생 중 다음 문장 렌더링)
음성으로 제어 가능한 38가지 macOS 동작
5,000개 이상 문서 청크에서 약 4ms 검색 속도의 로컬 RAG
20개의 핫 스왑 가능 모델
작업별 지연 시간 표시가 있는 전체 화면 TUI
MetalRT가 설치되지 않은 경우 llama.cpp로 폴백

음성 파이프라인 구성 요소

VAD: Silero 음성 활동 감지
STT: Zipformer 스트리밍 + Whisper/Parakeet 오프라인
LLM: KV 캐시 연속 및 Flash Attention을 지원하는 Qwen3/LFM2/Qwen3.5
TTS: 더블 버퍼링 문장 수준 합성
도구 호출: LLM 네이티브 도구 호출 형식
다중 턴 메모리: 토큰 예산 트리밍이 있는 슬라이딩 윈도우 대화 기록

사용 명령어

rcli              # 푸시 투 토크가 있는 대화형 TUI
rcli listen       # 연속 음성 모드
rcli ask "open Safari"  # 원샷 명령
rcli rag ingest ~/Documents/notes  # RAG용 문서 색인
rcli ask --rag ~/Library/RCLI/index "summarize the project plan"

TUI 컨트롤

SPACE: 푸시 투 토크
M: LLM/STT/TTS 다운로드 및 핫 스왑을 위한 모델 브라우저
A: macOS 동작 활성화/비활성화를 위한 동작 브라우저
B: STT, LLM, TTS 및 엔드투엔드 벤치마크 실행
R: RAG 문서 수집
X: 대화 지우기 및 컨텍스트 재설정
T: 도구 호출 추적 전환
ESC: 중지/닫기/종료

MetalRT 엔진 상세 정보

MetalRT는 RunAnywhere의 독점 GPU 추론 엔진으로, M3, M3 Pro, M3 Max, M4 및 이후 칩에서 사용 가능한 Metal 3.1 기능을 사용합니다. M1/M2 지원이 계획되어 있습니다. 이 엔진은 양자화된 행렬 곱셈, 어텐션 및 활성화 연산을 위한 맞춤형 Metal 컴퓨트 셰이더를 사용하며, 사전 컴파일되어 추론 중 할당 없이 GPU에 직접 디스패치됩니다.

macOS 동작

RCLI는 다음 범주에 걸쳐 43가지 macOS 동작을 포함합니다:

생산성: create_note, create_reminder, run_shortcut
통신: send_message, facetime_call
미디어: play_on_spotify, play_apple_music, play_pause, next_track, set_music_volume
시스템: open_app, quit_app, set_volume, toggle_dark_mode, screenshot, lock_screen
웹: search_web, search_youtube, open_url, open_maps

📖 전체 소스 읽기: HN AI Agents