Настройка локального голосового управления для AI-агентов на Apple Silicon

Данная настройка описывает, как реализовать локальное голосовое управление для ИИ-агентов с использованием Parakeet STT и Kokoro TTS на Apple Silicon, протестированное на Mac Mini M4. Задачей было создать полностью локальный и быстрый слой голосового взаимодействия, исключая зависимости от облачных сервисов.
Ключевые моменты
- Аппаратное обеспечение: Mac Mini M4 с OpenClaw + Claude в качестве ИИ-агента.
- Настройка программного обеспечения: Parakeet для распознавания речи (STT), который транскрибирует голосовой ввод примерно за 240 мс, и Kokoro для синтеза речи (TTS), который обеспечивает почти мгновенные ответы.
- Преимущества: Переход от ввода текста к голосовым командам значительно повышает гибкость рабочего процесса, позволяя работать вне офиса, например, с балкона или во время выгула собаки.
- Недостатки: Порой STT испытывает трудности с распознаванием акцентов, что забавно приводит к тому, что ИИ-агент исправляет произношение пользователя.
- Улучшения: Расширение браузера с 3D-аватаром по имени Мимора позволяет визуально взаимодействовать, показывая различные выражения, такие как слушание, размышление и радость во время ответов агента.
Эта конфигурация идеально подходит для тех, кто ищет быстрое голосовое взаимодействие с ИИ-агентами без использования облачных сервисов, особенно с использованием аппаратного обеспечения Apple Silicon.
📖 Читать источник полностью: r/LocalLLaMA
👀 Смотрите также

Unsloth Studio обеспечивает двукратное ускорение обучения с сокращением использования видеопамяти на 70% для локальной тонкой настройки ИИ.
Unsloth Studio предоставляет инструменты для обучения и тонкой настройки языковых моделей на локальном оборудовании с ускорением обучения в 2 раза и снижением использования VRAM на 70%. Поддерживает экспорт моделей в формат GGUF для использования с Ollama и позволяет реализовать полные локальные рабочие процессы ИИ-кодирования на оборудовании с 24 ГБ, таком как RTX 4090.

Noren AI: Инструмент для извлечения голоса определяет стили письма по образцам
Noren AI анализирует 5-10 образцов письма, чтобы автоматически создать голосовое руководство на основе реальных паттернов, совпадая с 90% вручную выявленных паттернов и обнаруживая дополнительные.

Claude Academy: Бесплатный учебный курс по программированию, работающий внутри Claude Desktop
Разработчик создал Claude Academy — бесплатный учебный курс по программированию, который полностью работает во вкладке Code в Claude Desktop. Система использует три команды для проведения 64 структурированных уроков по основам веб-разработки, с отслеживанием прогресса и созданием реальных проектов.

bunx ccusage: 18 450 долларов на кредитах сожжено — плоские тарифы покрывают расходы
Пользователь на r/ClaudeAI запустил bunx ccusage и обнаружил, что в мае было использовано кредитов на $18 450 — 248 млн входных токенов, 42 млн выходных токенов, 21,7 млрд с кэш-чтениями — при оплате всего €400/мес по фиксированному тарифу за Claude Code и Codex.