RunAnywhere RCLI: Голосовой ИИ-конвейер на устройстве для Apple Silicon

Что делает RCLI
RCLI — это полноценный голосовой AI-пайплайн, который полностью на устройстве выполняет преобразование речи в текст, вывод больших языковых моделей и преобразование текста в речь на Mac с чипами Apple Silicon. Требуется macOS 13+ на чипах M1 или новее и работает без облачных сервисов или API-ключей.
Установка и настройка
Установка через Homebrew:
brew tap RunanywhereAI/rcli https://github.com/RunanywhereAI/RCLI.git
brew install rcli
rcli setup # загружает ~1 ГБ моделей
Или с помощью curl:
curl -fsSL https://raw.githubusercontent.com/RunanywhereAI/RCLI/main/install.sh | bash
Заявления о производительности
Разработчики провели тестирование на M4 Max с 64 ГБ ОЗУ и сообщают:
- Декодирование LLM: в 1.67 раза быстрее, чем llama.cpp, в 1.19 раза быстрее, чем Apple MLX
- Qwen3-0.6B: 658 токенов/сек (против mlx-lm 552, llama.cpp 295)
- Qwen3-4B: 186 токенов/сек (против mlx-lm 170, llama.cpp 87)
- Время до первого токена: 6.6 мс
- STT: 70 секунд аудио транскрибировано за 101 мс (в 714 раз быстрее реального времени, в 4.6 раза быстрее, чем mlx-whisper)
- TTS: синтез за 178 мс (в 2.8 раза быстрее, чем mlx-audio и sherpa-onnx)
Ключевые особенности
- Три параллельных потока с кольцевыми буферами без блокировок
- Двойная буферизация TTS (следующее предложение рендерится, пока текущее воспроизводится)
- 38 действий macOS, управляемых голосом
- Локальный RAG с извлечением за ~4 мс из более чем 5K фрагментов документов
- 20 заменяемых на лету моделей
- Полноэкранный TUI с отображением задержек для каждой операции
- Возврат к llama.cpp, если MetalRT не установлен
Компоненты голосового пайплайна
- VAD: детекция голосовой активности Silero
- STT: потоковый Zipformer + офлайн Whisper/Parakeet
- LLM: Qwen3/LFM2/Qwen3.5 с продолжением KV-кэша и Flash Attention
- TTS: синтез на уровне предложений с двойной буферизацией
- Вызов инструментов: нативные форматы вызовов инструментов LLM
- Многократная память: скользящая история разговоров с обрезкой по бюджету токенов
Команды использования
rcli # интерактивный TUI с нажатием для разговора
rcli listen # непрерывный голосовой режим
rcli ask "open Safari" # одноразовая команда
rcli rag ingest ~/Documents/notes # индексация документов для RAG
rcli ask --rag ~/Library/RCLI/index "summarize the project plan"
Управление TUI
- ПРОБЕЛ: нажатие для разговора
- M: браузер моделей для загрузки и замены LLM/STT/TTS на лету
- A: браузер действий для включения/отключения действий macOS
- B: запуск бенчмарков STT, LLM, TTS и сквозных
- R: индексация документов RAG
- X: очистка разговора и сброс контекста
- T: переключение трассировки вызовов инструментов
- ESC: остановить/закрыть/выйти
Детали движка MetalRT
MetalRT — это проприетарный GPU-движок вывода RunAnywhere, использующий функции Metal 3.1, доступные на чипах M3, M3 Pro, M3 Max, M4 и новее. Поддержка M1/M2 запланирована. Движок использует пользовательские шейдеры вычислений Metal для квантованных матричных умножений, внимания и операций активации, компилируемые заранее и отправляемые напрямую на GPU без выделения памяти во время вывода.
Действия macOS
RCLI включает 43 действия macOS по категориям:
- Продуктивность: create_note, create_reminder, run_shortcut
- Коммуникация: send_message, facetime_call
- Медиа: play_on_spotify, play_apple_music, play_pause, next_track, set_music_volume
- Система: open_app, quit_app, set_volume, toggle_dark_mode, screenshot, lock_screen
- Веб: search_web, search_youtube, open_url, open_maps
📖 Прочитать полный источник: HN AI Agents
👀 Смотрите также

Helix: Открытая платформа превращает Claude в персонального ИИ-агента для macOS
Helix — это фреймворк с открытым исходным кодом, который подключает Claude через Claude Code в терминале к macOS с помощью четырёх плагинов MCP-сервера, позволяя Claude управлять приложениями, поддерживать постоянную память, выполнять запланированные задачи и работать с локальной обработкой голоса.

Навык Claude позволяет осуществлять детальные настройки личности с использованием количественных переменных.
Новый навык Claude позволяет разработчикам вносить количественные корректировки по 32 группам личностных черт, охватывающим 120 переменных, определённых Claude, с групповыми профилями, показывающими такие метрики, как Многословность (60), Доброжелательность (55) и Сарказм & Резкость (17). Навык сохраняется между диалогами и включает команду publish для пользовательских инструкций.

Unsloth и NVIDIA сотрудничают для ускорения обучения LLM примерно на 25%
Unsloth и NVIDIA выпускают оптимизации для обучения LLM: кэширование метаданных упакованных последовательностей (~14,3% ускорения) и двойная буферизация асинхронного градиентного контрольного чекпоинта (~8% ускорения) без потери точности. Автоматически включается на ноутбуках RTX, дата-центровых GPU и DGX Spark.

PhantomCrowd: Мультиагентный симулятор аудитории с использованием Claude Code
PhantomCrowd — это маркетинговая многокомпонентная система прогнозирования, которая моделирует реакцию реальной аудитории на контент перед его публикацией. Она генерирует 10–500 персонажей с уникальными демографическими данными и личностными характеристиками, каждый из которых независимо реагирует на контент, такой как рекламные тексты или посты в соцсетях.