Говорите с Когтем: Открытый голосовой интерфейс для iOS для Telegram-ботов OpenClaw

Speak with Claw — это приложение с открытым исходным кодом для iOS, которое предоставляет голосовой интерфейс для ботов Telegram, работающих на инфраструктуре OpenClaw. Система обеспечивает диалоговое взаимодействие, при котором пользователи разговаривают со своими ботами, аудио обрабатывается локально, а ответы возвращаются как в текстовом, так и в аудиоформате.
Как это работает
Приложение iOS записывает голосовой ввод и отправляет аудио на релейный сервер, работающий на Mac. Этот сервер обрабатывает аудио через бота Telegram пользователя на платформе OpenClaw, который может подключаться к любому API LLM (Claude, GPT, Gemini и т.д.). Ответ бота отправляется обратно в приложение iOS как в текстовом, так и в аудиоформате для воспроизведения.
Ключевые особенности
- Режим диалога с детектированием голосовой активности (VAD): автоматически определяет, когда вы говорите, без необходимости нажимать кнопки
- Активация по ключевому слову: можно активировать фразами вроде «Эй, бот»
- Воспроизведение аудиоответов: боты могут отвечать синтезированным аудио
- Удалённый доступ через Tailscale: работает откуда угодно с сохранением конфиденциальности
- Выбор нескольких ботов: поддерживает переключение между разными ботами OpenClaw
Техническая реализация
Система использует трёхкомпонентную архитектуру:
- Приложение iOS: создано на Swift с использованием AVFoundation и SFSpeechRecognizer
- Релейный сервер: приложение на Python/Flask с Telethon для интеграции с Telegram, работает на Mac
- Интеграция с OpenClaw: подключается к любому боту Telegram на платформе OpenClaw
Производительность и ограничения
Разработчик отмечает, что это не мгновенная система, как Siri. Задержка зависит от скорости обработки вашего LLM и условий сети. Приложение описано как «определённо не идеальное», и пользователям следует «использовать на свой страх и риск».
Вопросы конфиденциальности
Вся обработка данных происходит на вашей собственной инфраструктуре. Никакие пользовательские данные не отправляются разработчику приложения. Вся система размещается самостоятельно, что обеспечивает конфиденциальность, сохраняя голосовое взаимодействие в вашей контролируемой среде.
Доступность
Проект имеет открытый исходный код под лицензией MIT без коммерческого интереса. Исходный код доступен на GitHub для разработчиков, которые хотят внедрить или изменить систему для своих ботов OpenClaw.
📖 Read the full source: r/openclaw
👀 Смотрите также

OpenClawDreams: Расширение-симулятор снов для агентов OpenClaw
OpenClawDreams — это расширение, которое добавляет фоновый процесс рефлексии и ночной цикл сновидений для агентов OpenClaw. Оно сохраняет зашифрованные сводки разговоров в локальную базу данных SQLite, обрабатывает их во время фоновых циклов и генерирует консолидированные инсайты, которые затем передаются в постоянную память агента.

Плагин Claude Code запускает DOOM в терминале, пока ИИ размышляет
Разработчик создал плагин Claude Code, который отображает DOOM в виде всплывающего оверлея tmux во время обработки ИИ. Плагин использует doom-ascii, терминальный порт исходного кода DOOM, и автоматически запускается/закрывается при запросах.

Движок вывода Bodega: Оптимизация вывода LLM для унифицированной памяти Apple Silicon
Bodega — это механизм вывода, созданный специально для единой архитектуры памяти Apple Silicon, который решает проблемы пропускной способности за счёт перепроектирования непрерывного пакетирования и управления кэшем KV для MLX. Разработчик сообщает, что работал над ним 2,5 года с оптимизациями, близкими к уровню Metal.

fintool добавляет торговлю акциями и прогнозными рынками агентам OpenClaw.
fintool — это новый навык OpenClaw, который позволяет ИИ-агентам торговать акциями и прогнозными рынками. Для установки требуется прочитать файл на GitHub, после чего агенты смогут выполнять сделки на Hyperliquid, Binance и Polymarket с выводом в формате JSON для удобной интеграции.