RCLI: Pipeline de IA de Voz no Dispositivo para Apple Silicon

O que o RCLI faz

O RCLI é um pipeline completo de IA de voz que executa conversão de fala em texto, inferência de modelos de linguagem grandes e conversão de texto em fala inteiramente no dispositivo em Macs com Apple Silicon. Ele requer macOS 13+ em chips M1 ou posteriores e opera sem serviços de nuvem ou chaves de API.

Instalação e Configuração

Instale via Homebrew:

brew tap RunanywhereAI/rcli https://github.com/RunanywhereAI/RCLI.git
brew install rcli
rcli setup   # faz download de ~1 GB de modelos

Ou usando curl:

curl -fsSL https://raw.githubusercontent.com/RunanywhereAI/RCLI/main/install.sh | bash

Afirmações de Desempenho

Os desenvolvedores fizeram benchmarks em um M4 Max com 64GB de RAM e relatam:

Decodificação LLM: 1.67x mais rápido que llama.cpp, 1.19x mais rápido que Apple MLX
Qwen3-0.6B: 658 tokens/seg (vs mlx-lm 552, llama.cpp 295)
Qwen3-4B: 186 tokens/seg (vs mlx-lm 170, llama.cpp 87)
Tempo para o primeiro token: 6.6 ms
STT: 70 segundos de áudio transcritos em 101 ms (714x tempo real, 4.6x mais rápido que mlx-whisper)
TTS: 178 ms de síntese (2.8x mais rápido que mlx-audio e sherpa-onnx)

Principais Recursos

Três threads concorrentes com buffers em anel sem bloqueio
TTS com buffer duplo (próxima frase renderiza enquanto a atual toca)
38 ações do macOS controláveis por voz
RAG local com recuperação de ~4 ms em mais de 5K fragmentos de documentos
20 modelos intercambiáveis a quente
TUI em tela cheia com leituras de latência por operação
Alterna para llama.cpp quando o MetalRT não está instalado

Componentes do Pipeline de Voz

VAD: Detecção de atividade vocal Silero
STT: Zipformer streaming + Whisper/Parakeet offline
LLM: Qwen3/LFM2/Qwen3.5 com continuação de cache KV e Flash Attention
TTS: Síntese em nível de frase com buffer duplo
Chamada de Ferramentas: Formatos nativos de chamada de ferramentas LLM
Memória Multiturno: Histórico de conversa com janela deslizante e poda por orçamento de tokens

Comandos de Uso

rcli              # TUI interativo com push-to-talk
rcli listen       # modo de voz contínuo
rcli ask "open Safari"  # comando único
rcli rag ingest ~/Documents/notes  # indexar documentos para RAG
rcli ask --rag ~/Library/RCLI/index "summarize the project plan"

Controles do TUI

ESPAÇO: Push-to-talk
M: Navegador de modelos para baixar e trocar LLM/STT/TTS a quente
A: Navegador de ações para ativar/desativar ações do macOS
B: Executar benchmarks de STT, LLM, TTS e ponta a ponta
R: Ingestão de documentos RAG
X: Limpar conversa e redefinir contexto
T: Alternar rastreamento de chamada de ferramentas
ESC: Parar/fechar/sair

Detalhes do Motor MetalRT

O MetalRT é o mecanismo de inferência GPU proprietário da RunAnywhere que usa recursos do Metal 3.1 disponíveis em chips M3, M3 Pro, M3 Max, M4 e posteriores. Suporte para M1/M2 está planejado. O motor usa shaders de computação Metal personalizados para operações quantizadas de matmul, atenção e ativação, compilados antecipadamente e despachados diretamente para a GPU sem alocações durante a inferência.

Ações do macOS

O RCLI inclui 43 ações do macOS em categorias:

Produtividade: create_note, create_reminder, run_shortcut
Comunicação: send_message, facetime_call
Mídia: play_on_spotify, play_apple_music, play_pause, next_track, set_music_volume
Sistema: open_app, quit_app, set_volume, toggle_dark_mode, screenshot, lock_screen
Web: search_web, search_youtube, open_url, open_maps

📖 Leia a fonte completa: HN AI Agents