Agent Vocal en 400 ms : Architecture STT-LLM-TTS

Architecture et performances de l'agent vocal

Nick Tikhonov a construit un agent vocal à partir de zéro qui atteint en moyenne une latence de bout en bout d'environ 400 ms (arrêt du téléphone → première syllabe). Cela inclut un flux complet STT → LLM → TTS en boucle avec des interruptions propres et aucune réponse précalculée. L'implémentation a surpassé la configuration équivalente de Vapi par un facteur 2 en termes de latence.

Idées techniques fondamentales

La prise de conscience clé était que la voix est un problème de prise de tour, pas un problème de transcription. La détection d'activité vocale (VAD) seule échoue ; une détection sémantique de fin de tour est nécessaire. Le système se réduit à une boucle avec deux états : parler vs écouter.

Les transitions critiques sont :

Annuler instantanément en cas d'interruption
Répondre instantanément à la fin du tour

Exigences techniques

STT → LLM → TTS doit être en flux. Les pipelines séquentiels sont inefficaces pour une conversation naturelle. Le temps jusqu'au premier jeton (TTFT) domine tout dans les interfaces vocales - le premier jeton est le chemin critique. Le TTFT d'environ 80 ms de Groq a été identifié comme le plus grand gain de performance unique.

Considérations d'infrastructure

La géographie compte plus que les prompts. Tous les composants doivent être colocalisés ou la latence devient prohibitive avant même que le système ne commence à traiter. La construction a pris environ un jour et environ 100 $ en crédits d'API.

Pourquoi les agents vocaux sont difficiles

Les agents vocaux représentent une augmentation significative de complexité par rapport aux agents textuels. L'orchestration est continue et en temps réel, nécessitant une gestion minutieuse de plusieurs modèles simultanément. Le système doit constamment décider si l'utilisateur parle ou écoute, les transitions entre ces états étant l'aspect le plus difficile.

Lorsque l'utilisateur commence à parler, l'agent doit immédiatement arrêter de parler - annuler la génération, annuler la synthèse vocale et vider tout audio en mémoire tampon. Lorsque l'utilisateur arrête de parler, le système doit décider avec confiance qu'il a terminé et commencer à répondre avec un délai minimal.

Approche architecturale

Le développeur a commencé par itérer sur l'architecture avec ChatGPT en dehors de l'éditeur pour construire d'abord un modèle mental. L'ensemble du problème a été réduit à une seule boucle et un minuscule automate à états. La question fondamentale qu'un agent vocal doit répondre est : l'utilisateur parle-t-il ou écoute-t-il ?

Les deux états sont :

L'utilisateur parle
L'utilisateur écoute

Cette logique de détection de tour forme le cœur de chaque système vocal. L'implémentation est disponible sur GitHub pour référence et développement ultérieur.

📖 Lire la source complète : HN AI Agents

Construire un Agent Vocal en Moins de 500 ms : Architecture et Perspectives de Performance

Architecture et performances de l'agent vocal

Idées techniques fondamentales

Exigences techniques

Considérations d'infrastructure

Pourquoi les agents vocaux sont difficiles

Approche architecturale

👀 See Also

Gemma4 26B-A4B Offre des Performances Locales Rapides avec Recherche Web et Prise en Charge des Images

Anamnèse : Une couche de mémoire portable pour Claude et ChatGPT via MCP

Cortex : Une couche de mémoire locale pour les agents OpenClaw avec décroissance d'Ebbinghaus

skillcheck : Un linter pour les fichiers SKILL.md qui détecte les problèmes de compatibilité inter-agents