RunAnywhere RCLI: Pipeline de IA de Voz no Dispositivo para Apple Silicon

✍️ OpenClawRadar📅 Publicado: March 10, 2026🔗 Source
RunAnywhere RCLI: Pipeline de IA de Voz no Dispositivo para Apple Silicon
Ad

O que o RCLI faz

O RCLI é um pipeline completo de IA de voz que executa conversão de fala em texto, inferência de modelos de linguagem grandes e conversão de texto em fala inteiramente no dispositivo em Macs com Apple Silicon. Ele requer macOS 13+ em chips M1 ou posteriores e opera sem serviços de nuvem ou chaves de API.

Instalação e Configuração

Instale via Homebrew:

brew tap RunanywhereAI/rcli https://github.com/RunanywhereAI/RCLI.git
brew install rcli
rcli setup   # faz download de ~1 GB de modelos

Ou usando curl:

curl -fsSL https://raw.githubusercontent.com/RunanywhereAI/RCLI/main/install.sh | bash

Afirmações de Desempenho

Os desenvolvedores fizeram benchmarks em um M4 Max com 64GB de RAM e relatam:

  • Decodificação LLM: 1.67x mais rápido que llama.cpp, 1.19x mais rápido que Apple MLX
  • Qwen3-0.6B: 658 tokens/seg (vs mlx-lm 552, llama.cpp 295)
  • Qwen3-4B: 186 tokens/seg (vs mlx-lm 170, llama.cpp 87)
  • Tempo para o primeiro token: 6.6 ms
  • STT: 70 segundos de áudio transcritos em 101 ms (714x tempo real, 4.6x mais rápido que mlx-whisper)
  • TTS: 178 ms de síntese (2.8x mais rápido que mlx-audio e sherpa-onnx)

Principais Recursos

  • Três threads concorrentes com buffers em anel sem bloqueio
  • TTS com buffer duplo (próxima frase renderiza enquanto a atual toca)
  • 38 ações do macOS controláveis por voz
  • RAG local com recuperação de ~4 ms em mais de 5K fragmentos de documentos
  • 20 modelos intercambiáveis a quente
  • TUI em tela cheia com leituras de latência por operação
  • Alterna para llama.cpp quando o MetalRT não está instalado

Componentes do Pipeline de Voz

  • VAD: Detecção de atividade vocal Silero
  • STT: Zipformer streaming + Whisper/Parakeet offline
  • LLM: Qwen3/LFM2/Qwen3.5 com continuação de cache KV e Flash Attention
  • TTS: Síntese em nível de frase com buffer duplo
  • Chamada de Ferramentas: Formatos nativos de chamada de ferramentas LLM
  • Memória Multiturno: Histórico de conversa com janela deslizante e poda por orçamento de tokens
Ad

Comandos de Uso

rcli              # TUI interativo com push-to-talk
rcli listen       # modo de voz contínuo
rcli ask "open Safari"  # comando único
rcli rag ingest ~/Documents/notes  # indexar documentos para RAG
rcli ask --rag ~/Library/RCLI/index "summarize the project plan"

Controles do TUI

  • ESPAÇO: Push-to-talk
  • M: Navegador de modelos para baixar e trocar LLM/STT/TTS a quente
  • A: Navegador de ações para ativar/desativar ações do macOS
  • B: Executar benchmarks de STT, LLM, TTS e ponta a ponta
  • R: Ingestão de documentos RAG
  • X: Limpar conversa e redefinir contexto
  • T: Alternar rastreamento de chamada de ferramentas
  • ESC: Parar/fechar/sair

Detalhes do Motor MetalRT

O MetalRT é o mecanismo de inferência GPU proprietário da RunAnywhere que usa recursos do Metal 3.1 disponíveis em chips M3, M3 Pro, M3 Max, M4 e posteriores. Suporte para M1/M2 está planejado. O motor usa shaders de computação Metal personalizados para operações quantizadas de matmul, atenção e ativação, compilados antecipadamente e despachados diretamente para a GPU sem alocações durante a inferência.

Ações do macOS

O RCLI inclui 43 ações do macOS em categorias:

  • Produtividade: create_note, create_reminder, run_shortcut
  • Comunicação: send_message, facetime_call
  • Mídia: play_on_spotify, play_apple_music, play_pause, next_track, set_music_volume
  • Sistema: open_app, quit_app, set_volume, toggle_dark_mode, screenshot, lock_screen
  • Web: search_web, search_youtube, open_url, open_maps

📖 Leia a fonte completa: HN AI Agents

Ad

👀 See Also

Falhas Silenciosas de Ferramentas em Agentes de Codificação: Um Dreno Oculto de Eficiência
Tools

Falhas Silenciosas de Ferramentas em Agentes de Codificação: Um Dreno Oculto de Eficiência

Agentes de codificação frequentemente enfrentam falhas de ferramentas que passam despercebidas porque eles recorrem a estratégias alternativas, desperdiçando tokens e reduzindo a qualidade. A ferramenta de código aberto Vibeyard detecta essas falhas e sugere correções.

OpenClawRadar
ClawBridge – Exponha com Segurança Suas Entidades do Home Assistant para o OpenClaw
Tools

ClawBridge – Exponha com Segurança Suas Entidades do Home Assistant para o OpenClaw

O ClawBridge apresenta uma forma integrada de expor entidades do Home Assistant para o OpenClaw, aprimorando a automação enquanto garante a segurança. Descubra seus recursos e benefícios.

OpenClawRadar
ClawPort: Orquestração de Código Aberto para Fluxos de Trabalho de Agentes de IA com Cron de Autocorreção
Tools

ClawPort: Orquestração de Código Aberto para Fluxos de Trabalho de Agentes de IA com Cron de Autocorreção

ClawPort é uma camada de orquestração de código aberto para fluxos de trabalho de agentes de IA que configura automaticamente pipelines cron, se recupera de falhas e permite testar agentes diretamente antes de executarem conforme agendamento.

OpenClawRadar
Ferramenta Gratuita de Teste de Autenticação de Bot Web da Fingerprint para Desenvolvedores de Agentes de IA
Tools

Ferramenta Gratuita de Teste de Autenticação de Bot Web da Fingerprint para Desenvolvedores de Agentes de IA

A Fingerprint lançou um endpoint público e gratuito para testar implementações de Web Bot Auth. A ferramenta valida assinaturas criptográficas em requisições HTTP, ajudando desenvolvedores de bots e agentes de IA a garantir que sua configuração WBA funcione corretamente antes de ir para produção.

OpenClawRadar