RunAnywhere RCLI: Pipeline de IA de Voz no Dispositivo para Apple Silicon

O que o RCLI faz
O RCLI é um pipeline completo de IA de voz que executa conversão de fala em texto, inferência de modelos de linguagem grandes e conversão de texto em fala inteiramente no dispositivo em Macs com Apple Silicon. Ele requer macOS 13+ em chips M1 ou posteriores e opera sem serviços de nuvem ou chaves de API.
Instalação e Configuração
Instale via Homebrew:
brew tap RunanywhereAI/rcli https://github.com/RunanywhereAI/RCLI.git
brew install rcli
rcli setup # faz download de ~1 GB de modelos
Ou usando curl:
curl -fsSL https://raw.githubusercontent.com/RunanywhereAI/RCLI/main/install.sh | bash
Afirmações de Desempenho
Os desenvolvedores fizeram benchmarks em um M4 Max com 64GB de RAM e relatam:
- Decodificação LLM: 1.67x mais rápido que llama.cpp, 1.19x mais rápido que Apple MLX
- Qwen3-0.6B: 658 tokens/seg (vs mlx-lm 552, llama.cpp 295)
- Qwen3-4B: 186 tokens/seg (vs mlx-lm 170, llama.cpp 87)
- Tempo para o primeiro token: 6.6 ms
- STT: 70 segundos de áudio transcritos em 101 ms (714x tempo real, 4.6x mais rápido que mlx-whisper)
- TTS: 178 ms de síntese (2.8x mais rápido que mlx-audio e sherpa-onnx)
Principais Recursos
- Três threads concorrentes com buffers em anel sem bloqueio
- TTS com buffer duplo (próxima frase renderiza enquanto a atual toca)
- 38 ações do macOS controláveis por voz
- RAG local com recuperação de ~4 ms em mais de 5K fragmentos de documentos
- 20 modelos intercambiáveis a quente
- TUI em tela cheia com leituras de latência por operação
- Alterna para llama.cpp quando o MetalRT não está instalado
Componentes do Pipeline de Voz
- VAD: Detecção de atividade vocal Silero
- STT: Zipformer streaming + Whisper/Parakeet offline
- LLM: Qwen3/LFM2/Qwen3.5 com continuação de cache KV e Flash Attention
- TTS: Síntese em nível de frase com buffer duplo
- Chamada de Ferramentas: Formatos nativos de chamada de ferramentas LLM
- Memória Multiturno: Histórico de conversa com janela deslizante e poda por orçamento de tokens
Comandos de Uso
rcli # TUI interativo com push-to-talk
rcli listen # modo de voz contínuo
rcli ask "open Safari" # comando único
rcli rag ingest ~/Documents/notes # indexar documentos para RAG
rcli ask --rag ~/Library/RCLI/index "summarize the project plan"
Controles do TUI
- ESPAÇO: Push-to-talk
- M: Navegador de modelos para baixar e trocar LLM/STT/TTS a quente
- A: Navegador de ações para ativar/desativar ações do macOS
- B: Executar benchmarks de STT, LLM, TTS e ponta a ponta
- R: Ingestão de documentos RAG
- X: Limpar conversa e redefinir contexto
- T: Alternar rastreamento de chamada de ferramentas
- ESC: Parar/fechar/sair
Detalhes do Motor MetalRT
O MetalRT é o mecanismo de inferência GPU proprietário da RunAnywhere que usa recursos do Metal 3.1 disponíveis em chips M3, M3 Pro, M3 Max, M4 e posteriores. Suporte para M1/M2 está planejado. O motor usa shaders de computação Metal personalizados para operações quantizadas de matmul, atenção e ativação, compilados antecipadamente e despachados diretamente para a GPU sem alocações durante a inferência.
Ações do macOS
O RCLI inclui 43 ações do macOS em categorias:
- Produtividade: create_note, create_reminder, run_shortcut
- Comunicação: send_message, facetime_call
- Mídia: play_on_spotify, play_apple_music, play_pause, next_track, set_music_volume
- Sistema: open_app, quit_app, set_volume, toggle_dark_mode, screenshot, lock_screen
- Web: search_web, search_youtube, open_url, open_maps
📖 Leia a fonte completa: HN AI Agents
👀 See Also

Falhas Silenciosas de Ferramentas em Agentes de Codificação: Um Dreno Oculto de Eficiência
Agentes de codificação frequentemente enfrentam falhas de ferramentas que passam despercebidas porque eles recorrem a estratégias alternativas, desperdiçando tokens e reduzindo a qualidade. A ferramenta de código aberto Vibeyard detecta essas falhas e sugere correções.

ClawBridge – Exponha com Segurança Suas Entidades do Home Assistant para o OpenClaw
O ClawBridge apresenta uma forma integrada de expor entidades do Home Assistant para o OpenClaw, aprimorando a automação enquanto garante a segurança. Descubra seus recursos e benefícios.

ClawPort: Orquestração de Código Aberto para Fluxos de Trabalho de Agentes de IA com Cron de Autocorreção
ClawPort é uma camada de orquestração de código aberto para fluxos de trabalho de agentes de IA que configura automaticamente pipelines cron, se recupera de falhas e permite testar agentes diretamente antes de executarem conforme agendamento.

Ferramenta Gratuita de Teste de Autenticação de Bot Web da Fingerprint para Desenvolvedores de Agentes de IA
A Fingerprint lançou um endpoint público e gratuito para testar implementações de Web Bot Auth. A ferramenta valida assinaturas criptográficas em requisições HTTP, ajudando desenvolvedores de bots e agentes de IA a garantir que sua configuração WBA funcione corretamente antes de ir para produção.