RunAnywhere RCLI : Pipeline d'IA vocale sur appareil pour Apple Silicon

✍️ OpenClawRadar📅 Publié: March 10, 2026🔗 Source
RunAnywhere RCLI : Pipeline d'IA vocale sur appareil pour Apple Silicon
Ad

Ce que fait RCLI

RCLI est un pipeline d'IA vocale complet qui exécute la reconnaissance vocale, l'inférence de grands modèles de langage et la synthèse vocale entièrement sur l'appareil, sur les Mac équipés de puces Apple Silicon. Il nécessite macOS 13+ sur des puces M1 ou ultérieures et fonctionne sans services cloud ni clés API.

Installation et Configuration

Installez via Homebrew :

brew tap RunanywhereAI/rcli https://github.com/RunanywhereAI/RCLI.git
brew install rcli
rcli setup   # télécharge ~1 Go de modèles

Ou en utilisant curl :

curl -fsSL https://raw.githubusercontent.com/RunanywhereAI/RCLI/main/install.sh | bash

Revendications de Performance

Les développeurs ont effectué des tests sur un M4 Max avec 64 Go de RAM et rapportent :

  • Décodage LLM : 1,67x plus rapide que llama.cpp, 1,19x plus rapide qu'Apple MLX
  • Qwen3-0.6B : 658 tokens/sec (contre mlx-lm 552, llama.cpp 295)
  • Qwen3-4B : 186 tokens/sec (contre mlx-lm 170, llama.cpp 87)
  • Temps jusqu'au premier token : 6,6 ms
  • STT : 70 secondes d'audio transcrites en 101 ms (714x temps réel, 4,6x plus rapide que mlx-whisper)
  • TTS : synthèse en 178 ms (2,8x plus rapide que mlx-audio et sherpa-onnx)

Fonctionnalités Clés

  • Trois threads concurrents avec des tampons circulaires sans verrouillage
  • TTS à double tampon (la phrase suivante est rendue pendant que la phrase actuelle est jouée)
  • 38 actions macOS contrôlables par la voix
  • RAG local avec récupération en ~4 ms sur plus de 5 000 fragments de documents
  • 20 modèles interchangeables à chaud
  • Interface utilisateur en plein écran avec affichage des latences par opération
  • Bascule vers llama.cpp lorsque MetalRT n'est pas installé

Composants du Pipeline Vocal

  • VAD : Détection d'activité vocale Silero
  • STT : Zipformer en streaming + Whisper/Parakeet hors ligne
  • LLM : Qwen3/LFM2/Qwen3.5 avec continuation du cache KV et Flash Attention
  • TTS : Synthèse au niveau de la phrase à double tampon
  • Appel d'outils : Formats d'appel d'outils natifs aux LLM
  • Mémoire Multi-tours : Historique de conversation à fenêtre glissante avec élagage basé sur un budget de tokens
Ad

Commandes d'Utilisation

rcli              # Interface utilisateur interactive avec appuyer-pour-parler
rcli listen       # Mode vocal continu
rcli ask "open Safari"  # Commande unique
rcli rag ingest ~/Documents/notes  # Indexer des documents pour RAG
rcli ask --rag ~/Library/RCLI/index "summarize the project plan"

Contrôles de l'Interface Utilisateur

  • ESPACE : Appuyer-pour-parler
  • M : Navigateur de modèles pour télécharger et échanger à chaud LLM/STT/TTS
  • A : Navigateur d'actions pour activer/désactiver les actions macOS
  • B : Exécuter des tests de performance STT, LLM, TTS et de bout en bout
  • R : Ingestion de documents RAG
  • X : Effacer la conversation et réinitialiser le contexte
  • T : Basculer la trace des appels d'outils
  • ÉCHAP : Arrêter/fermer/quitter

Détails du Moteur MetalRT

MetalRT est le moteur d'inférence GPU propriétaire de RunAnywhere qui utilise les fonctionnalités Metal 3.1 disponibles sur les puces M3, M3 Pro, M3 Max, M4 et ultérieures. La prise en charge des M1/M2 est prévue. Le moteur utilise des shaders de calcul Metal personnalisés pour les opérations quantifiées de multiplication matricielle, d'attention et d'activation, compilés à l'avance et envoyés directement au GPU sans aucune allocation pendant l'inférence.

Actions macOS

RCLI inclut 43 actions macOS réparties en catégories :

  • Productivité : create_note, create_reminder, run_shortcut
  • Communication : send_message, facetime_call
  • Média : play_on_spotify, play_apple_music, play_pause, next_track, set_music_volume
  • Système : open_app, quit_app, set_volume, toggle_dark_mode, screenshot, lock_screen
  • Web : search_web, search_youtube, open_url, open_maps

📖 Read the full source: HN AI Agents

Ad

👀 See Also

Claude Code CLI Toolkit : Quatre outils pour la revue de code, les fiches projet et les hooks Git de journalisation automatique
Tools

Claude Code CLI Toolkit : Quatre outils pour la revue de code, les fiches projet et les hooks Git de journalisation automatique

Un développeur a publié quatre outils CLI construits autour du mode d'impression de Claude Code qui gèrent les revues de code, la génération de résumés de projet, les hooks git de journalisation automatique et l'état des sessions Claude. Les outils utilisent l'authentification existante de Claude Code et sont disponibles en open source.

OpenClawRadar
Phalanx CLI coordonne plusieurs agents IA pour des cycles de revue de code automatisés.
Tools

Phalanx CLI coordonne plusieurs agents IA pour des cycles de revue de code automatisés.

Un développeur a créé Phalanx, un outil CLI qui coordonne des agents IA de différents fournisseurs : Codex gère le codage, Claude Opus effectue la revue de code, et Claude Sonnet orchestre la boucle. Un outil compagnon appelé Codebones compresse les dépôts en cartes structurelles pour réduire l'utilisation de tokens.

OpenClawRadar
Code-Graph-MCP : Le serveur MCP open source réduit l'utilisation de tokens de code par Claude de 40 à 60 %
Tools

Code-Graph-MCP : Le serveur MCP open source réduit l'utilisation de tokens de code par Claude de 40 à 60 %

code-graph-mcp est un serveur MCP qui indexe les bases de code dans un graphe de connaissances AST, remplaçant de multiples appels grep/read par des requêtes structurées uniques. Le développeur rapporte des économies de 40 à 60 % sur les tokens de session totale et 80 % d'appels d'outils en moins par tâche de navigation.

OpenClawRadar
Tycono : Harnais d'Agent IA Open-Source avec Organigramme et Boucles d'Amélioration Autonome
Tools

Tycono : Harnais d'Agent IA Open-Source avec Organigramme et Boucles d'Amélioration Autonome

Tycono est un harnais open-source où vous définissez les rôles des agents d'IA en YAML (CTO, ingénieur, QA, etc.) et ils travaillent ensemble suivant un organigramme avec des boucles d'amélioration autonomes. Le système a exécuté 17 tours de travail pendant la nuit sur une tâche de jeu de course de pixels, générant 6 796 lignes de code réparties sur 43 commits.

OpenClawRadar