Agente de Voz com 400ms de Latência: Arquitetura e Insights

Arquitetura e Desempenho do Agente de Voz

Nick Tikhonov construiu um agente de voz do zero que apresenta uma latência média de aproximadamente 400ms de ponta a ponta (parada do telefone → primeira sílaba). Isso inclui o ciclo completo de STT → LLM → TTS com interrupções limpas e sem respostas pré-computadas. A implementação superou a configuração equivalente da Vapi em 2× em termos de latência.

Principais Percepções Técnicas

A percepção fundamental foi que a voz é um problema de revezamento de turnos, não um problema de transcrição. A Detecção de Atividade de Voz (VAD) por si só falha; é necessária a detecção semântica de fim de turno. O sistema se reduz a um loop com dois estados: falando vs ouvindo.

As transições críticas são:

Cancelar instantaneamente na interrupção
Responder instantaneamente no fim do turno

Requisitos Técnicos

STT → LLM → TTS deve ser em streaming. Pipelines sequenciais são ineficazes para conversas naturais. O Tempo para o Primeiro Token (TTFT) domina tudo em interfaces de voz - o primeiro token é o caminho crítico. O TTFT de aproximadamente 80ms da Groq foi identificado como o maior ganho de desempenho individual.

Considerações de Infraestrutura

A geografia importa mais do que os prompts. Todos os componentes devem estar colocalizados ou a latência se torna proibitiva antes mesmo de o sistema começar a processar. A construção levou aproximadamente um dia e cerca de US$ 100 em créditos de API.

Por que os Agentes de Voz São Desafiadores

Os agentes de voz representam um aumento significativo de complexidade em comparação com os agentes de texto. A orquestração é contínua e em tempo real, exigindo um gerenciamento cuidadoso de múltiplos modelos simultaneamente. O sistema deve decidir constantemente se o usuário está falando ou ouvindo, sendo as transições entre esses estados o aspecto mais difícil.

Quando o usuário começa a falar, o agente deve parar de falar imediatamente - cancelar a geração, cancelar a síntese de fala e liberar qualquer áudio em buffer. Quando o usuário para de falar, o sistema deve decidir com confiança que ele terminou e começar a responder com o mínimo de atraso.

Abordagem de Arquitetura

O desenvolvedor começou iterando na arquitetura com o ChatGPT fora do editor para construir primeiro um modelo mental. Todo o problema foi reduzido a um único loop e uma pequena máquina de estados. A questão central que um agente de voz precisa responder é: o usuário está falando ou ouvindo?

Os dois estados são:

O usuário está falando
O usuário está ouvindo

Essa lógica de detecção de turnos forma o núcleo de todo sistema de voz. A implementação está disponível no GitHub para referência e desenvolvimento posterior.

📖 Leia a fonte completa: HN AI Agents