Construyendo un Agente de Voz de Menos de 500ms: Arquitectura y Perspectivas de Rendimiento

✍️ OpenClawRadar📅 Publicado: 3 de marzo de 2026🔗 Source
Construyendo un Agente de Voz de Menos de 500ms: Arquitectura y Perspectivas de Rendimiento
Ad

Arquitectura y Rendimiento del Agente de Voz

Nick Tikhonov construyó un agente de voz desde cero que promedia ~400ms de latencia de extremo a extremo (parada del teléfono → primera sílaba). Esto incluye STT → LLM → TTS completo en el bucle con interrupciones limpias y sin respuestas precalculadas. La implementación superó la configuración equivalente de Vapi por 2× en latencia.

Ideas Técnicas Fundamentales

La clave fue darse cuenta de que la voz es un problema de toma de turnos, no un problema de transcripción. La Detección de Actividad de Voz (VAD) por sí sola falla; se requiere detección semántica de fin de turno. El sistema se reduce a un bucle con dos estados: hablando vs escuchando.

Las transiciones críticas son:

  • Cancelar instantáneamente en interrupción
  • Responder instantáneamente al final del turno

Requisitos Técnicos

STT → LLM → TTS debe transmitir. Las canalizaciones secuenciales son ineficaces para conversaciones naturales. El Tiempo al Primer Token (TTFT) domina todo en interfaces de voz: el primer token es la ruta crítica. El TTFT de ~80ms de Groq se identificó como la mayor mejora de rendimiento.

Consideraciones de Infraestructura

La geografía importa más que los prompts. Todos los componentes deben estar colocados o la latencia se vuelve prohibitiva antes de que el sistema comience a procesar. La construcción tomó aproximadamente un día y alrededor de $100 en créditos de API.

Ad

Por Qué los Agentes de Voz Son Desafiantes

Los agentes de voz representan un aumento significativo de complejidad en comparación con los agentes de texto. La orquestación es continua y en tiempo real, requiriendo una gestión cuidadosa de múltiples modelos simultáneamente. El sistema debe decidir constantemente si el usuario está hablando o escuchando, siendo las transiciones entre estos estados el aspecto más difícil.

Cuando el usuario comienza a hablar, el agente debe dejar de hablar inmediatamente: cancelar generación, cancelar síntesis de voz y vaciar cualquier audio en búfer. Cuando el usuario deja de hablar, el sistema debe decidir con confianza que ha terminado y comenzar a responder con el menor retraso posible.

Enfoque de Arquitectura

El desarrollador comenzó iterando sobre la arquitectura con ChatGPT fuera del editor para construir primero un modelo mental. Todo el problema se redujo a un solo bucle y una pequeña máquina de estados. La pregunta central que un agente de voz necesita responder es: ¿el usuario está hablando o escuchando?

Los dos estados son:

  • El usuario está hablando
  • El usuario está escuchando

Esta lógica de detección de turnos forma el núcleo de cada sistema de voz. La implementación está disponible en GitHub para referencia y desarrollo posterior.

📖 Read the full source: HN AI Agents

Ad

👀 Ver también

Diseño Abierto: Alternativa de Código Abierto a Claude Design que Funciona en tus Agentes CLI Locales
Herramientas

Diseño Abierto: Alternativa de Código Abierto a Claude Design que Funciona en tus Agentes CLI Locales

Open Design es un motor de diseño local-first y BYOK que convierte 11 CLIs de agentes de codificación (Claude Code, Codex, Cursor, Gemini CLI, etc.) en un flujo de trabajo de diseño con 72 sistemas de diseño de nivel de marca y 31 habilidades componibles, exportando HTML/PDF/PPTX/MP4.

OpenClawRadar
Gobernador: Un Plugin de Claude Code para Reducir el Desperdicio de Tokens mediante Compresión de Salida, Reducción de Contexto y Filtrado de Herramientas
Herramientas

Gobernador: Un Plugin de Claude Code para Reducir el Desperdicio de Tokens mediante Compresión de Salida, Reducción de Contexto y Filtrado de Herramientas

Governor es un plugin de Claude Code que reduce el desperdicio de tokens/contexto mediante una salida profesional compacta, compresión de archivos de memoria, filtrado de salida de herramientas y barreras de protección contra la desviación. Los benchmarks muestran un ahorro del 55.5% en tokens de salida frente al control.

OpenClawRadar
tmux-IDE: Un IDE Multiagente Basado en Terminal para Claude
Herramientas

tmux-IDE: Un IDE Multiagente Basado en Terminal para Claude

tmux-IDE es un IDE de terminal de código abierto y declarativo centrado en la ingeniería de agentes que crea diseños multiagente para agentes de codificación Claude. Permite a los desarrolladores iniciar su IDE a través de SSH, dar indicaciones a Claude y apagar su máquina mientras Claude continúa trabajando en sesiones de tmux.

OpenClawRadar
Capa de Identidad y Reputación para Agentes OpenClaw
Herramientas

Capa de Identidad y Reputación para Agentes OpenClaw

Un equipo de desarrolladores construyó MCP-I e IdentiClaw para resolver la pérdida de identidad en flujos de trabajo de agentes de múltiples pasos, además de knowthat.ai como un registro de reputación. Donaron la especificación MCP-I a la Decentralized Identity Foundation.

OpenClawRadar