Создание голосовой мультиагентной системы на основе Claude Code

Разработчик на r/ClaudeAI создал за выходные проект, добавляющий голосовое управление Claude Code на macOS, с ключевым словом, голосовым циклом WebRTC и мультиагентной оркестрацией. То, что начиналось как удобный хак, превратилось в систему, где главный агент разбивает задачи, привлекает под-агентов и запускает их параллельно с авто-проверками.
Как это работает
- Ключевое слово: "Yabby" активирует голосовой цикл. Разработчик выбрал нестандартное слово, чтобы избежать конфликтов с Siri или другими ассистентами.
- Голосовой цикл: WebRTC обрабатывает аудиопоток в реальном времени. Система использует Realtime API от Anthropic для распознавания речи и синтеза речи; целевая задержка — менее 300 мс, но API иногда вызывает задержки.
- Главный агент: Получает голосовой запрос, выполняет фазу анализа, создаёт план проекта и привлекает небольшую команду (менеджер + 2-3 под-агента) для выполнения шагов.
- Параллельное выполнение: Под-агенты работают параллельно, где возможно, иначе последовательно. Каждый агент получает свой сеанс CLI Claude Code с отдельным потоком — диалоги не пересекаются.
- Авто-QA: Когда под-агент завершает работу, запускается проверка с задержкой в 5 секунд для предотвращения накладок. Во время тестирования один агент обнаружил ошибку, допущенную другим агентом — непредвиденное эмерджентное поведение.
- Модальное окно утверждения плана: Перед выполнением любого агентом появляется модальное окно для проверки плана пользователем. Это предотвращает выполнение непроверенных действий.
Болевые точки
- Верификация говорящего: Использует косинусное сходство для эмбеддингов речи. Порог сложно настроить — слишком строгий отклоняет пользователя при простуде, слишком слабый позволяет любому в комнате отдавать команды.
- Проблемы с локалью: По умолчанию использовался французский язык, так как код был написан на нём. Разработчик постепенно это исправляет.
- Жизненный цикл фоновых задач: Когда родительский процесс CLI Claude Code завершается, фоновые задачи тихо умирают. Разработчик написал OS-уровневый PID-наблюдатель с shell-скриптом для отслеживания, какие долгоживущие серверы упали.
- Чрезмерное планирование: Главный агент иногда создаёт четырёхфазный план для тривиальных запросов, например, переименования файла.
Открытые вопросы
Разработчик ещё думает, как сократить многословность на этапе QA, стоит ли позволять под-агентам нанимать собственных под-агентов (рекурсивное делегирование) и как удерживать задержку голоса ниже 300 мс, когда Realtime API барахлит. Ему также интересно, как официальный голосовой режим от Anthropic (внедрённый для 5% пользователей) будет справляться с мультиагентной координацией.
📖 Читать полный источник: r/ClaudeAI
👀 Смотрите также

Локальный рабочий процесс ИИ-агента с использованием OpenCode, FastMCP и DeepSeek-r1
Разработчик делится своей локальной настройкой ИИ-агента с использованием OpenCode с файлами AGENTS.md для детерминированных системных промптов, FastMCP для предоставления локальных функций и DeepSeek-r1 через Ollama для конкретных под-агентов, таких как тестирование.

ClawHost Open-Source OpenClaw с развертыванием в один клик набирает более 200 звёзд на GitHub
ClawHost, инструмент с открытым исходным кодом для установки OpenClaw в один клик с полным доступом к серверу и контролем, достиг отметки в 200+ звёзд на GitHub. Проект решает проблемы с нестабильными коммерческими обёртками, предоставляя бесплатное, самостоятельно размещаемое решение.

大规模应用Claude Code:代理搜索如何避免大型代码库中的RAG失败模式
Claude Code использует агентный обход файловой системы вместо RAG на основе эмбеддингов, что устраняет проблемы с устаревшими индексами. В статье описываются пять точек расширения (CLAUDE.md, хуки, навыки, плагины, MCP) и философия «обвязка как модель» для репозиториев с миллионами строк.

Qure: Десктопное приложение для генерации E2E-тестов на основе записанных действий в браузере
Qure — это десктопное приложение от JetBrains (в настоящее время в закрытой бета-версии), которое генерирует сквозной код веб-тестов на основе записей, сделанных во встроенном браузере. Вместо того чтобы описывать сценарии тестирования текстом для ИИ-агентов, разработчики записывают свои ручные QA-сценарии, взаимодействуя с продуктом, а ИИ создаёт рабочий тестовый код, соответствующий их существующей кодовой базе.