RCLI: Pipeline IA Voz en Dispositivo para Apple Silicon

Qué hace RCLI

RCLI es una canalización completa de IA de voz que ejecuta conversión de voz a texto, inferencia de modelos de lenguaje grandes y conversión de texto a voz completamente en el dispositivo en Macs con Apple Silicon. Requiere macOS 13+ en chips M1 o posteriores y opera sin servicios en la nube ni claves API.

Instalación y Configuración

Instalar mediante Homebrew:

brew tap RunanywhereAI/rcli https://github.com/RunanywhereAI/RCLI.git
brew install rcli
rcli setup   # descarga ~1 GB de modelos

O usando curl:

curl -fsSL https://raw.githubusercontent.com/RunanywhereAI/RCLI/main/install.sh | bash

Afirmaciones de Rendimiento

Los desarrolladores realizaron pruebas de referencia en un M4 Max con 64 GB de RAM y reportan:

Decodificación LLM: 1.67x más rápido que llama.cpp, 1.19x más rápido que Apple MLX
Qwen3-0.6B: 658 tokens/seg (vs mlx-lm 552, llama.cpp 295)
Qwen3-4B: 186 tokens/seg (vs mlx-lm 170, llama.cpp 87)
Tiempo al primer token: 6.6 ms
STT: 70 segundos de audio transcritos en 101 ms (714x tiempo real, 4.6x más rápido que mlx-whisper)
TTS: 178 ms de síntesis (2.8x más rápido que mlx-audio y sherpa-onnx)

Características Principales

Tres hilos concurrentes con búferes en anillo sin bloqueo
TTS con doble búfer (la siguiente oración se renderiza mientras se reproduce la actual)
38 acciones de macOS controlables por voz
RAG local con recuperación de ~4 ms sobre 5K+ fragmentos de documentos
20 modelos intercambiables en caliente
TUI de pantalla completa con lecturas de latencia por operación
Vuelve a llama.cpp cuando MetalRT no está instalado

Componentes de la Canalización de Voz

VAD: Detección de actividad vocal Silero
STT: Zipformer en streaming + Whisper/Parakeet sin conexión
LLM: Qwen3/LFM2/Qwen3.5 con continuación de caché KV y Flash Attention
TTS: Síntesis a nivel de oración con doble búfer
Llamada de Herramientas: Formatos de llamada de herramientas nativos de LLM
Memoria Multiturno: Historial de conversación con ventana deslizante y recorte por presupuesto de tokens

Comandos de Uso

rcli              # TUI interactivo con pulsar para hablar
rcli listen       # modo de voz continuo
rcli ask "abrir Safari"  # comando único
rcli rag ingest ~/Documents/notes  # indexar documentos para RAG
rcli ask --rag ~/Library/RCLI/index "resumir el plan del proyecto"

Controles TUI

ESPACIO: Pulsar para hablar
M: Navegador de modelos para descargar e intercambiar en caliente LLM/STT/TTS
A: Navegador de acciones para habilitar/deshabilitar acciones de macOS
B: Ejecutar pruebas de referencia de STT, LLM, TTS y de extremo a extremo
R: Ingestión de documentos RAG
X: Limpiar conversación y restablecer contexto
T: Alternar rastreo de llamadas de herramientas
ESC: Detener/cerrar/salir

Detalles del Motor MetalRT

MetalRT es el motor de inferencia GPU propietario de RunAnywhere que utiliza funciones de Metal 3.1 disponibles en chips M3, M3 Pro, M3 Max, M4 y posteriores. Se planea soporte para M1/M2. El motor utiliza sombreadores de computación Metal personalizados para operaciones cuantizadas de multiplicación de matrices, atención y activación, compilados con anticipación y enviados directamente a la GPU sin asignaciones durante la inferencia.

Acciones de macOS

RCLI incluye 43 acciones de macOS en categorías:

Productividad: crear_nota, crear_recordatorio, ejecutar_atajo
Comunicación: enviar_mensaje, llamada_facetime
Medios: reproducir_en_spotify, reproducir_apple_music, reproducir_pausar, siguiente_pista, ajustar_volumen_música
Sistema: abrir_app, cerrar_app, ajustar_volumen, alternar_modo_oscuro, captura_pantalla, bloquear_pantalla
Web: buscar_en_web, buscar_youtube, abrir_url, abrir_mapas

📖 Leer la fuente completa: HN AI Agents