Создание голосового интерфейса для агентов OpenClaw с использованием ярлыков iPhone

Разработчик на r/openclaw поделился своей настройкой для создания голосового интерфейса, похожего на Siri, для агентов OpenClaw. Система сочетает локальный сервер на Python с ярлыками iPhone, чтобы обеспечить голосовое взаимодействие с агентами OpenClaw.
Архитектура системы
Для настройки требуется включить режим HTTP OpenAI на шлюзе и локальной сети OpenClaw. Основные компоненты:
- Сервер на Python: Изначально это был скрипт, который прослушивал ключевые слова через микрофон, выполнял преобразование речи в текст, отправлял текст в API OpenClaw, получал ответы и выполнял преобразование текста в речь с использованием голоса пользователя. Он был адаптирован в базовый сервер с конечной точкой, которая может получать текст из любого источника, отправлять его в OpenClaw и возвращать ответ.
- Ярлык iPhone: Обрабатывает преобразование речи в текст и текста в речь локально на iPhone. Рабочий процесс ярлыка включает:
- Диктовка текста (записывает голос в текст)
- Получение содержимого URL: url/ask с продиктованным текстом в теле запроса (отправляет текст для маршрутизации агенту OpenClaw для ответа)
- Словарь: Получение значения для reply в содержимом URL (сохранение текста ответа)
- Произнесение: значение словаря (вывод преобразования текста в речь)
Детали реализации
Разработчик запускает это через WireGuard и работает полностью в локальной сети или через VPN при нахождении вне локальной сети. Он подчёркивает важное соображение безопасности: «Будьте осторожны, открывая конечную точку для ответа вашего агента OpenClaw. Это может позволить любому получить доступ к вашему агенту (компьютеру). Используйте токен аутентификации.»
Такой подход перекладывает обработку речи на iPhone, сохраняя взаимодействие с агентом OpenClaw централизованным через конечную точку сервера на Python. Это позволяет осуществлять голосовое взаимодействие с агентами OpenClaw из любого места, сохраняя безопасность через VPN и токены аутентификации.
📖 Прочитать полный источник: r/openclaw
👀 Смотрите также

Фрилансер создает агента OpenClaw для визуального тестирования приложений и привлекает 11 клиентов.
Фронтенд-разработчик создал агента OpenClaw, который запускает визуальные тесты, подключаясь к облачному эмулятору и выполняя пользовательские сценарии, описанные простыми утверждениями. Сервис теперь приносит $3,840 в месяц регулярного дохода от 11 клиентов.

Использование Claude Cowork для автоматизации извлечения подарочных карт из Gmail
Разработчик использовал Claude Cowork для извлечения 48 номеров подарочных карт из Gmail, подключившись к своему аккаунту, выполнив поиск писем с определёнными темами и запустив JavaScript-скрипты для автоматизации взаимодействия с веб-сайтами после того, как Python-скрипты вызвали срабатывание защиты от ботов.

Месяц с OpenClaw: Успехи в персонализации и проблемы со стабильностью
Исследователь ИИ заменил ChatGPT Plus на OpenClaw на один месяц, добившись персонализированной функциональности чат-бота через файлы USER.md и PERSONAL_MODEL.md, ежедневных агентов проверки и отчетов о расходах, но столкнулся с постоянными сбоями, требующими вмешательства Claude Code.

Агент OpenClaw демонстрирует рабочий процесс эскалации модели с использованием Claude Opus.
Разработчик описывает, как его агент OpenClaw распознал, что Codex GPT-5.4 застрял на задаче по программированию, эскалировал проблему к Claude Opus 4.6 через Antigravity, обсудил решение, а затем вернулся, чтобы завершить работу автономно.