RunAnywhere RCLI:Apple Silicon向けオンデバイス音声AIパイプライン

RCLIの機能
RCLIは、Apple Silicon搭載Mac上で、音声認識、大規模言語モデルの推論、音声合成をすべてオンデバイスで実行する完全な音声AIパイプラインです。M1以降のチップでmacOS 13以上が必要で、クラウドサービスやAPIキーなしで動作します。
インストールとセットアップ
Homebrew経由でインストール:
brew tap RunanywhereAI/rcli https://github.com/RunanywhereAI/RCLI.git
brew install rcli
rcli setup # 約1 GBのモデルをダウンロード
またはcurlを使用:
curl -fsSL https://raw.githubusercontent.com/RunanywhereAI/RCLI/main/install.sh | bash
性能に関する主張
開発者は64GB RAM搭載のM4 Maxでベンチマークを実施し、以下の結果を報告しています:
- LLMデコード: llama.cppより1.67倍高速、Apple MLXより1.19倍高速
- Qwen3-0.6B: 658トークン/秒 (mlx-lm 552、llama.cpp 295と比較)
- Qwen3-4B: 186トークン/秒 (mlx-lm 170、llama.cpp 87と比較)
- 初回トークンまでの時間: 6.6ミリ秒
- STT: 70秒の音声を101ミリ秒で文字起こし (実時間の714倍、mlx-whisperより4.6倍高速)
- TTS: 178ミリ秒で合成 (mlx-audioおよびsherpa-onnxより2.8倍高速)
主な特徴
- ロックフリーのリングバッファを使用した3つの同時実行スレッド
- ダブルバッファリングTTS (現在の文を再生しながら次の文をレンダリング)
- 音声で制御可能な38のmacOSアクション
- 5,000以上の文書チャンクに対して約4ミリ秒で検索するローカルRAG
- 20のホットスワップ可能なモデル
- 操作ごとの遅延読み出しを表示するフルスクリーンTUI
- MetalRTがインストールされていない場合はllama.cppにフォールバック
音声パイプラインの構成要素
- VAD: Silero音声活動検出
- STT: Zipformerストリーミング + Whisper/Parakeetオフライン
- LLM: KVキャッシュ継続とFlash Attentionを備えたQwen3/LFM2/Qwen3.5
- TTS: ダブルバッファリングされた文レベルの合成
- ツール呼び出し: LLMネイティブのツールコール形式
- マルチターンメモリ: トークン予算トリミングを備えたスライディングウィンドウ会話履歴
使用コマンド
rcli # プッシュトゥトーク機能付きインタラクティブTUI
rcli listen # 連続音声モード
rcli ask "open Safari" # ワンショットコマンド
rcli rag ingest ~/Documents/notes # RAG用に文書をインデックス化
rcli ask --rag ~/Library/RCLI/index "summarize the project plan"
TUIコントロール
- SPACE: プッシュトゥトーク
- M: LLM/STT/TTSのダウンロードとホットスワップ用モデルブラウザ
- A: macOSアクションの有効化/無効化用アクションブラウザ
- B: STT、LLM、TTS、およびエンドツーエンドのベンチマーク実行
- R: RAG文書取り込み
- X: 会話のクリアとコンテキストのリセット
- T: ツールコールトレースの切り替え
- ESC: 停止/閉じる/終了
MetalRTエンジンの詳細
MetalRTはRunAnywhereの独自GPU推論エンジンで、M3、M3 Pro、M3 Max、M4以降のチップで利用可能なMetal 3.1機能を使用します。M1/M2のサポートは計画中です。このエンジンは、量子化された行列乗算、アテンション、活性化演算用のカスタムMetalコンピュートシェーダーを使用し、事前にコンパイルされ、推論中にゼロアロケーションでGPUに直接ディスパッチされます。
macOSアクション
RCLIには以下のカテゴリにまたがる43のmacOSアクションが含まれています:
- 生産性: create_note、create_reminder、run_shortcut
- コミュニケーション: send_message、facetime_call
- メディア: play_on_spotify、play_apple_music、play_pause、next_track、set_music_volume
- システム: open_app、quit_app、set_volume、toggle_dark_mode、screenshot、lock_screen
- ウェブ: search_web、search_youtube、open_url、open_maps
📖 Read the full source: HN AI Agents
👀 See Also

Claude-ETAプラグインは、Claude Codeにタスクのタイミング計測と修復ループ検出機能を追加します。
Claude-ETAは、Claude Codeのプラグインで、タスクの時間計測、実際の作業速度の学習、そしてClaudeが応答する前に実際のデータをフィードバックします。また、エラー内容をフィンガープリント化して修復ループを検出し、同一の失敗が3回続いた後に介入します。

Tendr Skillは、トークン使用量を削減するために階層構造を持つCLIベースの長期記憶機能を追加します。
新しいOpenClawスキルは、長期的なメモリ操作において推論と実行を分離し、CLIツールを使用して構造的変更を確定的に処理します。ウィキリンクとファイル間の明示的な意味階層をサポートし、トークン消費を削減し、エラーの蓄積を防ぎます。

AIエージェントにおけるリアルタイム検索データのための4つのClawHubスキル
ClawHubの4つのスキルは、AIエージェントに構造化された検索機能を提供します:Google(ウェブ、ニュース、画像、マップ)、Amazon(12のマーケットプレイスにわたる商品検索)、Walmart(配送フィルター付き商品検索)、YouTube(トランスクリプト付き動画検索)。1つのAPIキーでclawhub installコマンドからインストールできます。

ブラウザネイティブのリアルタイムコヒーレンス制御システム for Claude with SDEバンドおよびカルマンフィルタリング
開発者が、ブラウザ内で完全にClaudeアーティファクトとして動作するリアルタイム一貫性制御システムを構築しました。このシステムは会話を確率過程として扱い、ライブのモンテカルロSDEパス、デュアルカルマンフィルタリング、および行動信号検出を適用しています。