RunAnywhere RCLI: Голосовой ИИ-конвейер на устройстве для Apple Silicon

✍️ OpenClawRadar📅 Опубликовано: 10 марта 2026 г.🔗 Source
RunAnywhere RCLI: Голосовой ИИ-конвейер на устройстве для Apple Silicon
Ad

Что делает RCLI

RCLI — это полноценный голосовой AI-пайплайн, который полностью на устройстве выполняет преобразование речи в текст, вывод больших языковых моделей и преобразование текста в речь на Mac с чипами Apple Silicon. Требуется macOS 13+ на чипах M1 или новее и работает без облачных сервисов или API-ключей.

Установка и настройка

Установка через Homebrew:

brew tap RunanywhereAI/rcli https://github.com/RunanywhereAI/RCLI.git
brew install rcli
rcli setup   # загружает ~1 ГБ моделей

Или с помощью curl:

curl -fsSL https://raw.githubusercontent.com/RunanywhereAI/RCLI/main/install.sh | bash

Заявления о производительности

Разработчики провели тестирование на M4 Max с 64 ГБ ОЗУ и сообщают:

  • Декодирование LLM: в 1.67 раза быстрее, чем llama.cpp, в 1.19 раза быстрее, чем Apple MLX
  • Qwen3-0.6B: 658 токенов/сек (против mlx-lm 552, llama.cpp 295)
  • Qwen3-4B: 186 токенов/сек (против mlx-lm 170, llama.cpp 87)
  • Время до первого токена: 6.6 мс
  • STT: 70 секунд аудио транскрибировано за 101 мс (в 714 раз быстрее реального времени, в 4.6 раза быстрее, чем mlx-whisper)
  • TTS: синтез за 178 мс (в 2.8 раза быстрее, чем mlx-audio и sherpa-onnx)

Ключевые особенности

  • Три параллельных потока с кольцевыми буферами без блокировок
  • Двойная буферизация TTS (следующее предложение рендерится, пока текущее воспроизводится)
  • 38 действий macOS, управляемых голосом
  • Локальный RAG с извлечением за ~4 мс из более чем 5K фрагментов документов
  • 20 заменяемых на лету моделей
  • Полноэкранный TUI с отображением задержек для каждой операции
  • Возврат к llama.cpp, если MetalRT не установлен

Компоненты голосового пайплайна

  • VAD: детекция голосовой активности Silero
  • STT: потоковый Zipformer + офлайн Whisper/Parakeet
  • LLM: Qwen3/LFM2/Qwen3.5 с продолжением KV-кэша и Flash Attention
  • TTS: синтез на уровне предложений с двойной буферизацией
  • Вызов инструментов: нативные форматы вызовов инструментов LLM
  • Многократная память: скользящая история разговоров с обрезкой по бюджету токенов
Ad

Команды использования

rcli              # интерактивный TUI с нажатием для разговора
rcli listen       # непрерывный голосовой режим
rcli ask "open Safari"  # одноразовая команда
rcli rag ingest ~/Documents/notes  # индексация документов для RAG
rcli ask --rag ~/Library/RCLI/index "summarize the project plan"

Управление TUI

  • ПРОБЕЛ: нажатие для разговора
  • M: браузер моделей для загрузки и замены LLM/STT/TTS на лету
  • A: браузер действий для включения/отключения действий macOS
  • B: запуск бенчмарков STT, LLM, TTS и сквозных
  • R: индексация документов RAG
  • X: очистка разговора и сброс контекста
  • T: переключение трассировки вызовов инструментов
  • ESC: остановить/закрыть/выйти

Детали движка MetalRT

MetalRT — это проприетарный GPU-движок вывода RunAnywhere, использующий функции Metal 3.1, доступные на чипах M3, M3 Pro, M3 Max, M4 и новее. Поддержка M1/M2 запланирована. Движок использует пользовательские шейдеры вычислений Metal для квантованных матричных умножений, внимания и операций активации, компилируемые заранее и отправляемые напрямую на GPU без выделения памяти во время вывода.

Действия macOS

RCLI включает 43 действия macOS по категориям:

  • Продуктивность: create_note, create_reminder, run_shortcut
  • Коммуникация: send_message, facetime_call
  • Медиа: play_on_spotify, play_apple_music, play_pause, next_track, set_music_volume
  • Система: open_app, quit_app, set_volume, toggle_dark_mode, screenshot, lock_screen
  • Веб: search_web, search_youtube, open_url, open_maps

📖 Прочитать полный источник: HN AI Agents

Ad

👀 Смотрите также

Helix: Открытая платформа превращает Claude в персонального ИИ-агента для macOS
Инструменты

Helix: Открытая платформа превращает Claude в персонального ИИ-агента для macOS

Helix — это фреймворк с открытым исходным кодом, который подключает Claude через Claude Code в терминале к macOS с помощью четырёх плагинов MCP-сервера, позволяя Claude управлять приложениями, поддерживать постоянную память, выполнять запланированные задачи и работать с локальной обработкой голоса.

OpenClawRadar
Навык Claude позволяет осуществлять детальные настройки личности с использованием количественных переменных.
Инструменты

Навык Claude позволяет осуществлять детальные настройки личности с использованием количественных переменных.

Новый навык Claude позволяет разработчикам вносить количественные корректировки по 32 группам личностных черт, охватывающим 120 переменных, определённых Claude, с групповыми профилями, показывающими такие метрики, как Многословность (60), Доброжелательность (55) и Сарказм & Резкость (17). Навык сохраняется между диалогами и включает команду publish для пользовательских инструкций.

OpenClawRadar
Unsloth и NVIDIA сотрудничают для ускорения обучения LLM примерно на 25%
Инструменты

Unsloth и NVIDIA сотрудничают для ускорения обучения LLM примерно на 25%

Unsloth и NVIDIA выпускают оптимизации для обучения LLM: кэширование метаданных упакованных последовательностей (~14,3% ускорения) и двойная буферизация асинхронного градиентного контрольного чекпоинта (~8% ускорения) без потери точности. Автоматически включается на ноутбуках RTX, дата-центровых GPU и DGX Spark.

OpenClawRadar
PhantomCrowd: Мультиагентный симулятор аудитории с использованием Claude Code
Инструменты

PhantomCrowd: Мультиагентный симулятор аудитории с использованием Claude Code

PhantomCrowd — это маркетинговая многокомпонентная система прогнозирования, которая моделирует реакцию реальной аудитории на контент перед его публикацией. Она генерирует 10–500 персонажей с уникальными демографическими данными и личностными характеристиками, каждый из которых независимо реагирует на контент, такой как рекламные тексты или посты в соцсетях.

OpenClawRadar