Claude Code à commande vocale : système multi-agents sur Mac

Un développeur sur r/ClaudeAI a réalisé un projet de week-end qui ajoute le contrôle vocal à Claude Code sur macOS, avec un mot de réveil, une boucle vocale WebRTC et un système d'orchestration multi-agents. Ce qui a commencé comme un bidouillage de confort s'est transformé en un système où un agent principal décompose les tâches, recrute des sous-agents et les exécute en parallèle avec des passes QA auto-déclenchées.

Comment ça marche

Mot de réveil : "Yabby" déclenche la boucle vocale. Le développeur a choisi un mot de réveil personnalisé pour éviter les conflits avec Siri ou d'autres assistants.
Boucle vocale : WebRTC gère le streaming audio en temps réel. Le système utilise l'API Realtime d'Anthropic pour la reconnaissance et la synthèse vocales ; la latence cible est inférieure à 300 ms, mais l'API provoque parfois des retards.
Agent principal : Reçoit la demande vocale, effectue une phase de découverte, crée un plan de projet et recrute une petite équipe (manager + 2-3 sous-agents) pour exécuter les étapes.
Exécution parallèle : Les sous-agents s'exécutent en parallèle lorsque c'est possible, sinon séquentiellement. Chaque agent dispose de sa propre session CLI Claude Code avec un thread séparé — les conversations ne se mélangent pas.
Auto-QA : Lorsqu'un sous-agent termine, une passe de relecture est déclenchée avec un débounce de 5 secondes pour éviter les accumulations. Lors des tests, un agent a détecté un bug écrit par un autre agent — un comportement émergent que le développeur n'avait pas prévu.
Fenêtre d'approbation du plan : Avant qu'un agent n'exécute quoi que ce soit, une fenêtre contextuelle permet à l'utilisateur de vérifier le plan. Cela empêche le système d'exécuter des actions non vérifiées.

Points douloureux

Vérification du locuteur : Utilise la similarité cosinus sur les embeddings du locuteur. Le seuil est difficile à régler — trop strict, il rejette l'utilisateur lorsqu'il est enrhumé ; trop laxiste, il permet à n'importe qui dans la pièce de déclencher des commandes.
Problèmes de locale : Le français était la locale par défaut car le code a été écrit ainsi. Le développeur est en train de corriger cela.
Cycle de vie des tâches en arrière-plan : Lorsque le processus CLI parent de Claude Code se termine, les tâches en arrière-plan meurent silencieusement. Le développeur a écrit un watcher PID au niveau OS avec un script shell de comptabilité pour suivre les serveurs longue durée qui ont planté.
Sur-planification : L'agent principal produit parfois un plan de projet en quatre phases pour des demandes triviales comme renommer un fichier.

Questions ouvertes

Le développeur cherche encore comment réduire la verbosité de la phase QA, s'il doit laisser les sous-agents recruter leurs propres sous-agents (délégation récursive) et comment maintenir la latence vocale sous 300 ms lorsque l'API Realtime devient capricieuse. Il se demande également comment le mode vocal officiel d'Anthropic (déployé pour 5 % des utilisateurs) gérera la coordination multi-agents.

📖 Lisez la source complète : r/ClaudeAI

Construction d'un système multi-agent contrôlé par la voix sur Claude Code

Comment ça marche

Points douloureux

Questions ouvertes

👀 See Also

llm-idle-timeout se déclenche à 2 minutes sur N100/WSL2 malgré le paramètre timeoutSeconds

Claude Skill open-source structure les connaissances sur la croissance des SaaS B2B pour un raisonnement IA cohérent

Système de mémoire persistante sans code pour Claude utilisant Notion et MCP

Recherche web hors ligne : Une alternative locale à Google Search pour les agents IA