Construire un Agent Vocal en Moins de 500 ms : Architecture et Perspectives de Performance

✍️ OpenClawRadar📅 Publié: March 3, 2026🔗 Source
Construire un Agent Vocal en Moins de 500 ms : Architecture et Perspectives de Performance
Ad

Architecture et performances de l'agent vocal

Nick Tikhonov a construit un agent vocal à partir de zéro qui atteint en moyenne une latence de bout en bout d'environ 400 ms (arrêt du téléphone → première syllabe). Cela inclut un flux complet STT → LLM → TTS en boucle avec des interruptions propres et aucune réponse précalculée. L'implémentation a surpassé la configuration équivalente de Vapi par un facteur 2 en termes de latence.

Idées techniques fondamentales

La prise de conscience clé était que la voix est un problème de prise de tour, pas un problème de transcription. La détection d'activité vocale (VAD) seule échoue ; une détection sémantique de fin de tour est nécessaire. Le système se réduit à une boucle avec deux états : parler vs écouter.

Les transitions critiques sont :

  • Annuler instantanément en cas d'interruption
  • Répondre instantanément à la fin du tour

Exigences techniques

STT → LLM → TTS doit être en flux. Les pipelines séquentiels sont inefficaces pour une conversation naturelle. Le temps jusqu'au premier jeton (TTFT) domine tout dans les interfaces vocales - le premier jeton est le chemin critique. Le TTFT d'environ 80 ms de Groq a été identifié comme le plus grand gain de performance unique.

Considérations d'infrastructure

La géographie compte plus que les prompts. Tous les composants doivent être colocalisés ou la latence devient prohibitive avant même que le système ne commence à traiter. La construction a pris environ un jour et environ 100 $ en crédits d'API.

Ad

Pourquoi les agents vocaux sont difficiles

Les agents vocaux représentent une augmentation significative de complexité par rapport aux agents textuels. L'orchestration est continue et en temps réel, nécessitant une gestion minutieuse de plusieurs modèles simultanément. Le système doit constamment décider si l'utilisateur parle ou écoute, les transitions entre ces états étant l'aspect le plus difficile.

Lorsque l'utilisateur commence à parler, l'agent doit immédiatement arrêter de parler - annuler la génération, annuler la synthèse vocale et vider tout audio en mémoire tampon. Lorsque l'utilisateur arrête de parler, le système doit décider avec confiance qu'il a terminé et commencer à répondre avec un délai minimal.

Approche architecturale

Le développeur a commencé par itérer sur l'architecture avec ChatGPT en dehors de l'éditeur pour construire d'abord un modèle mental. L'ensemble du problème a été réduit à une seule boucle et un minuscule automate à états. La question fondamentale qu'un agent vocal doit répondre est : l'utilisateur parle-t-il ou écoute-t-il ?

Les deux états sont :

  • L'utilisateur parle
  • L'utilisateur écoute

Cette logique de détection de tour forme le cœur de chaque système vocal. L'implémentation est disponible sur GitHub pour référence et développement ultérieur.

📖 Lire la source complète : HN AI Agents

Ad

👀 See Also

Passerelle MCP pour un accès distant sécurisé aux outils internes
Tools

Passerelle MCP pour un accès distant sécurisé aux outils internes

Une passerelle MCP open-source agrège plusieurs serveurs d'outils MCP en une seule connexion, permettant un accès sécurisé via Claude Desktop sans exposer de points de terminaison publics. Elle utilise OpenZiti/zrok pour un réseau de confiance zéro et ne nécessite qu'une seule entrée de configuration avec un jeton de partage.

OpenClawRadar
Utilisation de l'IDE OpenAI Codex avec des modèles Ollama locaux dans VSCodium
Tools

Utilisation de l'IDE OpenAI Codex avec des modèles Ollama locaux dans VSCodium

L'IDE OpenAI Codex peut être configuré pour fonctionner avec des modèles Ollama locaux dans VSCodium en utilisant des configurations spécifiques dans le fichier config.toml.

OpenClawRadar
Claude Code Container offre un isolement Docker sans configuration pour Claude Code
Tools

Claude Code Container offre un isolement Docker sans configuration pour Claude Code

Claude Code Container (ccc) est un outil gratuit et open-source qui crée automatiquement des conteneurs Docker par projet pour Claude Code avec une isolation complète et une configuration zéro. Il transmet les variables d'environnement de l'hôte, monte les clés SSH, fournit un proxy localhost transparent et inclut Chromium avec chrome-devtools MCP préconfiguré.

OpenClawRadar
Développeur solo utilise Claude + Blender MCP pour créer une vidéo App Store en 90 minutes
Tools

Développeur solo utilise Claude + Blender MCP pour créer une vidéo App Store en 90 minutes

L'utilisateur Reddit Positive_Camel2086 raconte comment il a utilisé Claude avec le serveur Blender MCP pour générer une vidéo de lancement verticale de 10 secondes, en automatisant le gréement de la caméra, les matériaux, le brouillard et les systèmes de particules via des invites conversationnelles.

OpenClawRadar