RunAnywhere RCLI: On-Device Voice AI-Pipeline für Apple Silicon

✍️ OpenClawRadar📅 Veröffentlicht: 10. März 2026🔗 Source
RunAnywhere RCLI: On-Device Voice AI-Pipeline für Apple Silicon
Ad

Was RCLI macht

RCLI ist eine komplette Sprach-KI-Pipeline, die Spracherkennung, Inferenz großer Sprachmodelle und Sprachsynthese vollständig lokal auf Apple Silicon Macs ausführt. Es benötigt macOS 13+ auf M1 oder neueren Chips und arbeitet ohne Cloud-Dienste oder API-Schlüssel.

Installation und Einrichtung

Installation über Homebrew:

brew tap RunanywhereAI/rcli https://github.com/RunanywhereAI/RCLI.git
brew install rcli
rcli setup   # lädt ~1 GB Modelle herunter

Oder mit curl:

curl -fsSL https://raw.githubusercontent.com/RunanywhereAI/RCLI/main/install.sh | bash

Leistungsangaben

Die Entwickler haben auf einem M4 Max mit 64 GB RAM getestet und berichten:

  • LLM-Decodierung: 1,67x schneller als llama.cpp, 1,19x schneller als Apple MLX
  • Qwen3-0.6B: 658 Token/Sek. (vs. mlx-lm 552, llama.cpp 295)
  • Qwen3-4B: 186 Token/Sek. (vs. mlx-lm 170, llama.cpp 87)
  • Zeit bis zum ersten Token: 6,6 ms
  • STT: 70 Sekunden Audio in 101 ms transkribiert (714x Echtzeit, 4,6x schneller als mlx-whisper)
  • TTS: 178 ms Synthese (2,8x schneller als mlx-audio und sherpa-onnx)

Hauptfunktionen

  • Drei parallele Threads mit lockfreien Ringpuffern
  • Doppelt gepufferte TTS (nächster Satz wird gerendert, während der aktuelle abgespielt wird)
  • 38 macOS-Aktionen per Sprachsteuerung
  • Lokale RAG mit ~4 ms Abrufzeit über 5.000+ Dokumentenabschnitte
  • 20 austauschbare Modelle
  • Vollbild-TUI mit Latenzanzeigen pro Operation
  • Fallback auf llama.cpp, wenn MetalRT nicht installiert ist

Komponenten der Sprachpipeline

  • VAD: Silero-Sprachaktivitätserkennung
  • STT: Zipformer-Streaming + Whisper/Parakeet offline
  • LLM: Qwen3/LFM2/Qwen3.5 mit KV-Cache-Fortsetzung und Flash Attention
  • TTS: Doppelt gepufferte Satzebenen-Synthese
  • Tool Calling: LLM-native Tool-Call-Formate
  • Multi-Turn-Memory: Gleitendes Fenster für Konversationsverlauf mit Token-Budget-Trimming
Ad

Nutzungsbefehle

rcli              # interaktive TUI mit Push-to-Talk
rcli listen       # kontinuierlicher Sprachmodus
rcli ask "open Safari"  # Einzelbefehl
rcli rag ingest ~/Documents/notes  # Dokumente für RAG indizieren
rcli ask --rag ~/Library/RCLI/index "summarize the project plan"

TUI-Steuerung

  • SPACE: Push-to-Talk
  • M: Modell-Browser zum Herunterladen und Austauschen von LLM/STT/TTS
  • A: Aktions-Browser zum Aktivieren/Deaktivieren von macOS-Aktionen
  • B: STT-, LLM-, TTS- und End-to-End-Benchmarks ausführen
  • R: RAG-Dokumentenerfassung
  • X: Konversation löschen und Kontext zurücksetzen
  • T: Tool-Call-Trace umschalten
  • ESC: Stoppen/Schließen/Beenden

Details zur MetalRT-Engine

MetalRT ist RunAnywhere's proprietäre GPU-Inferenz-Engine, die Metal 3.1-Funktionen nutzt, die auf M3, M3 Pro, M3 Max, M4 und neueren Chips verfügbar sind. M1/M2-Unterstützung ist geplant. Die Engine verwendet benutzerdefinierte Metal-Compute-Shader für quantisierte Matrizenmultiplikation, Attention- und Aktivierungsoperationen, die vorab kompiliert und direkt an die GPU gesendet werden, ohne während der Inferenz Speicher zu allozieren.

macOS-Aktionen

RCLI enthält 43 macOS-Aktionen in verschiedenen Kategorien:

  • Produktivität: create_note, create_reminder, run_shortcut
  • Kommunikation: send_message, facetime_call
  • Medien: play_on_spotify, play_apple_music, play_pause, next_track, set_music_volume
  • System: open_app, quit_app, set_volume, toggle_dark_mode, screenshot, lock_screen
  • Web: search_web, search_youtube, open_url, open_maps

📖 Read the full source: HN AI Agents

Ad

👀 Siehe auch

Reise-Hacking-Toolkit: KI-Fähigkeiten und MCP-Server für die Suche nach Punkten und Meilen
Werkzeuge

Reise-Hacking-Toolkit: KI-Fähigkeiten und MCP-Server für die Suche nach Punkten und Meilen

Ein GitHub-Repository bietet 7 Markdown-Fähigkeiten und 6 MCP-Server, die Claude Code und OpenCode beibringen, Prämienflüge über 25+ Meilenprogramme zu suchen, Barpreise zu vergleichen, Treuepunktekontostände abzurufen sowie Hotels und Fähren zu finden. Die Einrichtung erfordert das Klonen des Repos und das Ausführen von setup.sh.

OpenClawRadar
TestThread: Open-Source-Testframework für KI-Agenten
Werkzeuge

TestThread: Open-Source-Testframework für KI-Agenten

TestThread ist ein Open-Source-Testframework für KI-Agenten, das Tests gegen Live-Endpunkte ausführt, Pass/Fail-Ergebnisse mit KI-Diagnose liefert und Funktionen wie semantisches Matching, PII-Erkennung und CI/CD-Integration umfasst.

OpenClawRadar
agentmemory V4 erreicht 96,2 % auf dem LongMemEval-Benchmark und übertrifft damit kommerzielle KI-Gedächtnissysteme.
Werkzeuge

agentmemory V4 erreicht 96,2 % auf dem LongMemEval-Benchmark und übertrifft damit kommerzielle KI-Gedächtnissysteme.

agentmemory V4 erreichte 96,2 % auf LongMemEval und übertraf damit mehrere geförderte KI-Speicherunternehmen, darunter PwC Chronos (95,6 %), Mastra (94,87 %) und OMEGA (93,2 %). Das System wurde allein in 16 Tagen auf einem Mittelklasse-Gaming-PC mit einem Budget von 1.000 US-Dollar entwickelt.

OpenClawRadar
Benchmark: MLX vs. Ollama beim Ausführen von Qwen3-Coder-Next 8-Bit auf dem M5 Max MacBook Pro
Werkzeuge

Benchmark: MLX vs. Ollama beim Ausführen von Qwen3-Coder-Next 8-Bit auf dem M5 Max MacBook Pro

Ein Benchmark-Vergleich der MLX- und Ollama-Backends, die Qwen3-Coder-Next mit 8-Bit-Quantisierung auf einem M5 Max MacBook Pro mit 128 GB RAM ausführen, zeigt, dass MLX etwa 72 Token pro Sekunde erreicht, was ungefähr der doppelten Durchsatzrate von Ollama über verschiedene Programmieraufgaben hinweg entspricht.

OpenClawRadar