RCLI : Pipeline IA vocale sur Apple Silicon

Ce que fait RCLI

RCLI est un pipeline d'IA vocale complet qui exécute la reconnaissance vocale, l'inférence de grands modèles de langage et la synthèse vocale entièrement sur l'appareil, sur les Mac équipés de puces Apple Silicon. Il nécessite macOS 13+ sur des puces M1 ou ultérieures et fonctionne sans services cloud ni clés API.

Installation et Configuration

Installez via Homebrew :

brew tap RunanywhereAI/rcli https://github.com/RunanywhereAI/RCLI.git
brew install rcli
rcli setup   # télécharge ~1 Go de modèles

Ou en utilisant curl :

curl -fsSL https://raw.githubusercontent.com/RunanywhereAI/RCLI/main/install.sh | bash

Revendications de Performance

Les développeurs ont effectué des tests sur un M4 Max avec 64 Go de RAM et rapportent :

Décodage LLM : 1,67x plus rapide que llama.cpp, 1,19x plus rapide qu'Apple MLX
Qwen3-0.6B : 658 tokens/sec (contre mlx-lm 552, llama.cpp 295)
Qwen3-4B : 186 tokens/sec (contre mlx-lm 170, llama.cpp 87)
Temps jusqu'au premier token : 6,6 ms
STT : 70 secondes d'audio transcrites en 101 ms (714x temps réel, 4,6x plus rapide que mlx-whisper)
TTS : synthèse en 178 ms (2,8x plus rapide que mlx-audio et sherpa-onnx)

Fonctionnalités Clés

Trois threads concurrents avec des tampons circulaires sans verrouillage
TTS à double tampon (la phrase suivante est rendue pendant que la phrase actuelle est jouée)
38 actions macOS contrôlables par la voix
RAG local avec récupération en ~4 ms sur plus de 5 000 fragments de documents
20 modèles interchangeables à chaud
Interface utilisateur en plein écran avec affichage des latences par opération
Bascule vers llama.cpp lorsque MetalRT n'est pas installé

Composants du Pipeline Vocal

VAD : Détection d'activité vocale Silero
STT : Zipformer en streaming + Whisper/Parakeet hors ligne
LLM : Qwen3/LFM2/Qwen3.5 avec continuation du cache KV et Flash Attention
TTS : Synthèse au niveau de la phrase à double tampon
Appel d'outils : Formats d'appel d'outils natifs aux LLM
Mémoire Multi-tours : Historique de conversation à fenêtre glissante avec élagage basé sur un budget de tokens

Commandes d'Utilisation

rcli              # Interface utilisateur interactive avec appuyer-pour-parler
rcli listen       # Mode vocal continu
rcli ask "open Safari"  # Commande unique
rcli rag ingest ~/Documents/notes  # Indexer des documents pour RAG
rcli ask --rag ~/Library/RCLI/index "summarize the project plan"

Contrôles de l'Interface Utilisateur

ESPACE : Appuyer-pour-parler
M : Navigateur de modèles pour télécharger et échanger à chaud LLM/STT/TTS
A : Navigateur d'actions pour activer/désactiver les actions macOS
B : Exécuter des tests de performance STT, LLM, TTS et de bout en bout
R : Ingestion de documents RAG
X : Effacer la conversation et réinitialiser le contexte
T : Basculer la trace des appels d'outils
ÉCHAP : Arrêter/fermer/quitter

Détails du Moteur MetalRT

MetalRT est le moteur d'inférence GPU propriétaire de RunAnywhere qui utilise les fonctionnalités Metal 3.1 disponibles sur les puces M3, M3 Pro, M3 Max, M4 et ultérieures. La prise en charge des M1/M2 est prévue. Le moteur utilise des shaders de calcul Metal personnalisés pour les opérations quantifiées de multiplication matricielle, d'attention et d'activation, compilés à l'avance et envoyés directement au GPU sans aucune allocation pendant l'inférence.

Actions macOS

RCLI inclut 43 actions macOS réparties en catégories :

Productivité : create_note, create_reminder, run_shortcut
Communication : send_message, facetime_call
Média : play_on_spotify, play_apple_music, play_pause, next_track, set_music_volume
Système : open_app, quit_app, set_volume, toggle_dark_mode, screenshot, lock_screen
Web : search_web, search_youtube, open_url, open_maps

📖 Read the full source: HN AI Agents

RunAnywhere RCLI : Pipeline d'IA vocale sur appareil pour Apple Silicon

Ce que fait RCLI

Installation et Configuration

Revendications de Performance

Fonctionnalités Clés

Composants du Pipeline Vocal

Commandes d'Utilisation

Contrôles de l'Interface Utilisateur

Détails du Moteur MetalRT

Actions macOS

👀 See Also

Claude Code CLI Toolkit : Quatre outils pour la revue de code, les fiches projet et les hooks Git de journalisation automatique

Phalanx CLI coordonne plusieurs agents IA pour des cycles de revue de code automatisés.

Code-Graph-MCP : Le serveur MCP open source réduit l'utilisation de tokens de code par Claude de 40 à 60 %

Tycono : Harnais d'Agent IA Open-Source avec Organigramme et Boucles d'Amélioration Autonome