RCLI: Open-Source Voice AI Pipeline für Apple Silicon

Was RCLI macht

RCLI ist eine komplette Sprach-KI-Pipeline, die Spracherkennung, Inferenz großer Sprachmodelle und Sprachsynthese vollständig lokal auf Apple Silicon Macs ausführt. Es benötigt macOS 13+ auf M1 oder neueren Chips und arbeitet ohne Cloud-Dienste oder API-Schlüssel.

Installation und Einrichtung

Installation über Homebrew:

brew tap RunanywhereAI/rcli https://github.com/RunanywhereAI/RCLI.git
brew install rcli
rcli setup   # lädt ~1 GB Modelle herunter

Oder mit curl:

curl -fsSL https://raw.githubusercontent.com/RunanywhereAI/RCLI/main/install.sh | bash

Leistungsangaben

Die Entwickler haben auf einem M4 Max mit 64 GB RAM getestet und berichten:

LLM-Decodierung: 1,67x schneller als llama.cpp, 1,19x schneller als Apple MLX
Qwen3-0.6B: 658 Token/Sek. (vs. mlx-lm 552, llama.cpp 295)
Qwen3-4B: 186 Token/Sek. (vs. mlx-lm 170, llama.cpp 87)
Zeit bis zum ersten Token: 6,6 ms
STT: 70 Sekunden Audio in 101 ms transkribiert (714x Echtzeit, 4,6x schneller als mlx-whisper)
TTS: 178 ms Synthese (2,8x schneller als mlx-audio und sherpa-onnx)

Hauptfunktionen

Drei parallele Threads mit lockfreien Ringpuffern
Doppelt gepufferte TTS (nächster Satz wird gerendert, während der aktuelle abgespielt wird)
38 macOS-Aktionen per Sprachsteuerung
Lokale RAG mit ~4 ms Abrufzeit über 5.000+ Dokumentenabschnitte
20 austauschbare Modelle
Vollbild-TUI mit Latenzanzeigen pro Operation
Fallback auf llama.cpp, wenn MetalRT nicht installiert ist

Komponenten der Sprachpipeline

VAD: Silero-Sprachaktivitätserkennung
STT: Zipformer-Streaming + Whisper/Parakeet offline
LLM: Qwen3/LFM2/Qwen3.5 mit KV-Cache-Fortsetzung und Flash Attention
TTS: Doppelt gepufferte Satzebenen-Synthese
Tool Calling: LLM-native Tool-Call-Formate
Multi-Turn-Memory: Gleitendes Fenster für Konversationsverlauf mit Token-Budget-Trimming

Nutzungsbefehle

rcli              # interaktive TUI mit Push-to-Talk
rcli listen       # kontinuierlicher Sprachmodus
rcli ask "open Safari"  # Einzelbefehl
rcli rag ingest ~/Documents/notes  # Dokumente für RAG indizieren
rcli ask --rag ~/Library/RCLI/index "summarize the project plan"

TUI-Steuerung

SPACE: Push-to-Talk
M: Modell-Browser zum Herunterladen und Austauschen von LLM/STT/TTS
A: Aktions-Browser zum Aktivieren/Deaktivieren von macOS-Aktionen
B: STT-, LLM-, TTS- und End-to-End-Benchmarks ausführen
R: RAG-Dokumentenerfassung
X: Konversation löschen und Kontext zurücksetzen
T: Tool-Call-Trace umschalten
ESC: Stoppen/Schließen/Beenden

Details zur MetalRT-Engine

MetalRT ist RunAnywhere's proprietäre GPU-Inferenz-Engine, die Metal 3.1-Funktionen nutzt, die auf M3, M3 Pro, M3 Max, M4 und neueren Chips verfügbar sind. M1/M2-Unterstützung ist geplant. Die Engine verwendet benutzerdefinierte Metal-Compute-Shader für quantisierte Matrizenmultiplikation, Attention- und Aktivierungsoperationen, die vorab kompiliert und direkt an die GPU gesendet werden, ohne während der Inferenz Speicher zu allozieren.

macOS-Aktionen

RCLI enthält 43 macOS-Aktionen in verschiedenen Kategorien:

Produktivität: create_note, create_reminder, run_shortcut
Kommunikation: send_message, facetime_call
Medien: play_on_spotify, play_apple_music, play_pause, next_track, set_music_volume
System: open_app, quit_app, set_volume, toggle_dark_mode, screenshot, lock_screen
Web: search_web, search_youtube, open_url, open_maps

📖 Read the full source: HN AI Agents