RunAnywhere RCLI: Голосовой ИИ-конвейер на устройстве для Apple Silicon

✍️ OpenClawRadar📅 Опубликовано: 10 марта 2026 г.🔗 Source

Что делает RCLI

RCLI — это полноценный голосовой AI-пайплайн, который полностью на устройстве выполняет преобразование речи в текст, вывод больших языковых моделей и преобразование текста в речь на Mac с чипами Apple Silicon. Требуется macOS 13+ на чипах M1 или новее и работает без облачных сервисов или API-ключей.

Установка и настройка

Установка через Homebrew:

brew tap RunanywhereAI/rcli https://github.com/RunanywhereAI/RCLI.git
brew install rcli
rcli setup   # загружает ~1 ГБ моделей

Или с помощью curl:

curl -fsSL https://raw.githubusercontent.com/RunanywhereAI/RCLI/main/install.sh | bash

Заявления о производительности

Разработчики провели тестирование на M4 Max с 64 ГБ ОЗУ и сообщают:

Декодирование LLM: в 1.67 раза быстрее, чем llama.cpp, в 1.19 раза быстрее, чем Apple MLX
Qwen3-0.6B: 658 токенов/сек (против mlx-lm 552, llama.cpp 295)
Qwen3-4B: 186 токенов/сек (против mlx-lm 170, llama.cpp 87)
Время до первого токена: 6.6 мс
STT: 70 секунд аудио транскрибировано за 101 мс (в 714 раз быстрее реального времени, в 4.6 раза быстрее, чем mlx-whisper)
TTS: синтез за 178 мс (в 2.8 раза быстрее, чем mlx-audio и sherpa-onnx)

Ключевые особенности

Три параллельных потока с кольцевыми буферами без блокировок
Двойная буферизация TTS (следующее предложение рендерится, пока текущее воспроизводится)
38 действий macOS, управляемых голосом
Локальный RAG с извлечением за ~4 мс из более чем 5K фрагментов документов
20 заменяемых на лету моделей
Полноэкранный TUI с отображением задержек для каждой операции
Возврат к llama.cpp, если MetalRT не установлен

Компоненты голосового пайплайна

VAD: детекция голосовой активности Silero
STT: потоковый Zipformer + офлайн Whisper/Parakeet
LLM: Qwen3/LFM2/Qwen3.5 с продолжением KV-кэша и Flash Attention
TTS: синтез на уровне предложений с двойной буферизацией
Вызов инструментов: нативные форматы вызовов инструментов LLM
Многократная память: скользящая история разговоров с обрезкой по бюджету токенов

Команды использования

rcli              # интерактивный TUI с нажатием для разговора
rcli listen       # непрерывный голосовой режим
rcli ask "open Safari"  # одноразовая команда
rcli rag ingest ~/Documents/notes  # индексация документов для RAG
rcli ask --rag ~/Library/RCLI/index "summarize the project plan"

Управление TUI

ПРОБЕЛ: нажатие для разговора
M: браузер моделей для загрузки и замены LLM/STT/TTS на лету
A: браузер действий для включения/отключения действий macOS
B: запуск бенчмарков STT, LLM, TTS и сквозных
R: индексация документов RAG
X: очистка разговора и сброс контекста
T: переключение трассировки вызовов инструментов
ESC: остановить/закрыть/выйти

Детали движка MetalRT

MetalRT — это проприетарный GPU-движок вывода RunAnywhere, использующий функции Metal 3.1, доступные на чипах M3, M3 Pro, M3 Max, M4 и новее. Поддержка M1/M2 запланирована. Движок использует пользовательские шейдеры вычислений Metal для квантованных матричных умножений, внимания и операций активации, компилируемые заранее и отправляемые напрямую на GPU без выделения памяти во время вывода.

Действия macOS

RCLI включает 43 действия macOS по категориям:

Продуктивность: create_note, create_reminder, run_shortcut
Коммуникация: send_message, facetime_call
Медиа: play_on_spotify, play_apple_music, play_pause, next_track, set_music_volume
Система: open_app, quit_app, set_volume, toggle_dark_mode, screenshot, lock_screen
Веб: search_web, search_youtube, open_url, open_maps

📖 Прочитать полный источник: HN AI Agents

👀 Смотрите также

Инструменты

Helix: Открытая платформа превращает Claude в персонального ИИ-агента для macOS

Helix — это фреймворк с открытым исходным кодом, который подключает Claude через Claude Code в терминале к macOS с помощью четырёх плагинов MCP-сервера, позволяя Claude управлять приложениями, поддерживать постоянную память, выполнять запланированные задачи и работать с локальной обработкой голоса.

1 мар. 2026 г., 22:45 UTC

OpenClawRadar

Инструменты

Навык Claude позволяет осуществлять детальные настройки личности с использованием количественных переменных.

Новый навык Claude позволяет разработчикам вносить количественные корректировки по 32 группам личностных черт, охватывающим 120 переменных, определённых Claude, с групповыми профилями, показывающими такие метрики, как Многословность (60), Доброжелательность (55) и Сарказм & Резкость (17). Навык сохраняется между диалогами и включает команду publish для пользовательских инструкций.

15 апр. 2026 г., 09:45 UTC

OpenClawRadar

Инструменты

Unsloth и NVIDIA сотрудничают для ускорения обучения LLM примерно на 25%

Unsloth и NVIDIA выпускают оптимизации для обучения LLM: кэширование метаданных упакованных последовательностей (~14,3% ускорения) и двойная буферизация асинхронного градиентного контрольного чекпоинта (~8% ускорения) без потери точности. Автоматически включается на ноутбуках RTX, дата-центровых GPU и DGX Spark.

7 мая 2026 г., 14:15 UTC

OpenClawRadar

Инструменты

PhantomCrowd: Мультиагентный симулятор аудитории с использованием Claude Code

PhantomCrowd — это маркетинговая многокомпонентная система прогнозирования, которая моделирует реакцию реальной аудитории на контент перед его публикацией. Она генерирует 10–500 персонажей с уникальными демографическими данными и личностными характеристиками, каждый из которых независимо реагирует на контент, такой как рекламные тексты или посты в соцсетях.

14 апр. 2026 г., 22:45 UTC

OpenClawRadar