RunAnywhere RCLI: Pipeline de IA de Voz en Dispositivo para Apple Silicon

Qué hace RCLI
RCLI es una canalización completa de IA de voz que ejecuta conversión de voz a texto, inferencia de modelos de lenguaje grandes y conversión de texto a voz completamente en el dispositivo en Macs con Apple Silicon. Requiere macOS 13+ en chips M1 o posteriores y opera sin servicios en la nube ni claves API.
Instalación y Configuración
Instalar mediante Homebrew:
brew tap RunanywhereAI/rcli https://github.com/RunanywhereAI/RCLI.git
brew install rcli
rcli setup # descarga ~1 GB de modelos
O usando curl:
curl -fsSL https://raw.githubusercontent.com/RunanywhereAI/RCLI/main/install.sh | bash
Afirmaciones de Rendimiento
Los desarrolladores realizaron pruebas de referencia en un M4 Max con 64 GB de RAM y reportan:
- Decodificación LLM: 1.67x más rápido que llama.cpp, 1.19x más rápido que Apple MLX
- Qwen3-0.6B: 658 tokens/seg (vs mlx-lm 552, llama.cpp 295)
- Qwen3-4B: 186 tokens/seg (vs mlx-lm 170, llama.cpp 87)
- Tiempo al primer token: 6.6 ms
- STT: 70 segundos de audio transcritos en 101 ms (714x tiempo real, 4.6x más rápido que mlx-whisper)
- TTS: 178 ms de síntesis (2.8x más rápido que mlx-audio y sherpa-onnx)
Características Principales
- Tres hilos concurrentes con búferes en anillo sin bloqueo
- TTS con doble búfer (la siguiente oración se renderiza mientras se reproduce la actual)
- 38 acciones de macOS controlables por voz
- RAG local con recuperación de ~4 ms sobre 5K+ fragmentos de documentos
- 20 modelos intercambiables en caliente
- TUI de pantalla completa con lecturas de latencia por operación
- Vuelve a llama.cpp cuando MetalRT no está instalado
Componentes de la Canalización de Voz
- VAD: Detección de actividad vocal Silero
- STT: Zipformer en streaming + Whisper/Parakeet sin conexión
- LLM: Qwen3/LFM2/Qwen3.5 con continuación de caché KV y Flash Attention
- TTS: Síntesis a nivel de oración con doble búfer
- Llamada de Herramientas: Formatos de llamada de herramientas nativos de LLM
- Memoria Multiturno: Historial de conversación con ventana deslizante y recorte por presupuesto de tokens
Comandos de Uso
rcli # TUI interactivo con pulsar para hablar
rcli listen # modo de voz continuo
rcli ask "abrir Safari" # comando único
rcli rag ingest ~/Documents/notes # indexar documentos para RAG
rcli ask --rag ~/Library/RCLI/index "resumir el plan del proyecto"
Controles TUI
- ESPACIO: Pulsar para hablar
- M: Navegador de modelos para descargar e intercambiar en caliente LLM/STT/TTS
- A: Navegador de acciones para habilitar/deshabilitar acciones de macOS
- B: Ejecutar pruebas de referencia de STT, LLM, TTS y de extremo a extremo
- R: Ingestión de documentos RAG
- X: Limpiar conversación y restablecer contexto
- T: Alternar rastreo de llamadas de herramientas
- ESC: Detener/cerrar/salir
Detalles del Motor MetalRT
MetalRT es el motor de inferencia GPU propietario de RunAnywhere que utiliza funciones de Metal 3.1 disponibles en chips M3, M3 Pro, M3 Max, M4 y posteriores. Se planea soporte para M1/M2. El motor utiliza sombreadores de computación Metal personalizados para operaciones cuantizadas de multiplicación de matrices, atención y activación, compilados con anticipación y enviados directamente a la GPU sin asignaciones durante la inferencia.
Acciones de macOS
RCLI incluye 43 acciones de macOS en categorías:
- Productividad: crear_nota, crear_recordatorio, ejecutar_atajo
- Comunicación: enviar_mensaje, llamada_facetime
- Medios: reproducir_en_spotify, reproducir_apple_music, reproducir_pausar, siguiente_pista, ajustar_volumen_música
- Sistema: abrir_app, cerrar_app, ajustar_volumen, alternar_modo_oscuro, captura_pantalla, bloquear_pantalla
- Web: buscar_en_web, buscar_youtube, abrir_url, abrir_mapas
📖 Leer la fuente completa: HN AI Agents
👀 Ver también

Kelet: Análisis Automatizado de Causa Raíz para Agentes de IA
Kelet es un servicio que analiza automáticamente fallos de agentes de IA en producción agrupando trazas y señales para identificar causas raíz y sugerir soluciones. Se integra mediante SDKs de Python/TypeScript o una habilidad de instalación y actualmente es gratuito durante la fase beta.

Complementos de Claude: Visión por Computadora, Consejo Multiagente y Flujo de Trabajo de Autodepuración
Se lanzaron tres complementos de Claude: Computer Vision v1.7.0 para automatización de aplicaciones de Windows, The Council v3.1.0 para consultas multiagente adversarias y Upwork Scraper v0.2.0 para análisis del mercado laboral. Una demostración mostró a Claude usando estos complementos para diagnosticar y corregir su propio error de automatización en Solitario.

Desarrollo Local de IA con Qwen3.6-27B y Opencode en una 5090
Un usuario de Reddit comparte su experiencia al cambiar de herramientas de codificación de IA en la nube (Claude Code, Cursor) a una configuración local usando Opencode + llama-server + Qwen3.6-27B con 128K de contexto en una sola RTX 5090, citando libertad de límites de uso y riesgos de cuenta.

Vibeyard añade tablero Kanban para gestionar múltiples sesiones de Claude Code
Un IDE de código abierto llamado Vibeyard ahora incluye un tablero Kanban que permite iniciar sesiones del agente Claude Code directamente desde las tarjetas. Las tarjetas se mueven automáticamente a Hecho cuando el agente termina.