Sprachassistent unter 500ms Latenz: Architektur & Leistung

Architektur und Leistung des Sprachagenten

Nick Tikhonov hat einen Sprachagenten von Grund auf neu gebaut, der durchschnittlich ~400 ms End-to-End-Latenz (Ende des Anrufs → erste Silbe) erreicht. Dies umfasst vollständiges STT → LLM → TTS in der Schleife mit sauberen Unterbrechungen und ohne vorberechnete Antworten. Die Implementierung übertraf das entsprechende Setup von Vapi bei der Latenz um das 2-fache.

Kern technische Erkenntnisse

Die entscheidende Erkenntnis war, dass Sprache ein Problem des Sprechwechsels ist, kein Transkriptionsproblem. Voice Activity Detection (VAD) allein reicht nicht aus; eine semantische Sprechwechselerkennung ist erforderlich. Das System reduziert sich auf eine Schleife mit zwei Zuständen: Sprechen vs. Zuhören.

Die kritischen Übergänge sind:

Sofortiges Abbrechen bei Unterbrechung
Sofortiges Antworten bei Sprechwechsel

Technische Anforderungen

STT → LLM → TTS muss streamen. Sequentielle Pipelines sind für natürliche Gespräche ineffektiv. Die Zeit bis zum ersten Token (TTFT) dominiert alles in Sprachschnittstellen - der erste Token ist der kritische Pfad. Groqs ~80 ms TTFT wurde als der größte Leistungsgewinn identifiziert.

Infrastrukturüberlegungen

Geografie ist wichtiger als Eingabeaufforderungen. Alle Komponenten müssen gemeinsam platziert werden, sonst wird die Latenz unerträglich, bevor das System überhaupt mit der Verarbeitung beginnt. Der Aufbau dauerte etwa einen Tag und kostete ungefähr 100 US-Dollar an API-Guthaben.

Warum Sprachagenten herausfordernd sind

Sprachagenten stellen einen erheblichen Komplexitätsanstieg im Vergleich zu Textagenten dar. Die Orchestrierung ist kontinuierlich und in Echtzeit, was eine sorgfältige Verwaltung mehrerer Modelle gleichzeitig erfordert. Das System muss ständig entscheiden, ob der Benutzer spricht oder zuhört, wobei die Übergänge zwischen diesen Zuständen der schwierigste Aspekt sind.

Wenn der Benutzer zu sprechen beginnt, muss der Agent sofort aufhören zu sprechen - die Generierung abbrechen, die Sprachsynthese abbrechen und jeglichen gepufferten Audioinhalt löschen. Wenn der Benutzer aufhört zu sprechen, muss das System sicher entscheiden, dass er fertig ist, und mit minimaler Verzögerung antworten.

Architekturansatz

Der Entwickler begann damit, die Architektur mit ChatGPT außerhalb des Editors zu iterieren, um zunächst ein mentales Modell aufzubauen. Das gesamte Problem wurde auf eine einzelne Schleife und einen winzigen Zustandsautomaten reduziert. Die Kernfrage, die ein Sprachagent beantworten muss, lautet: Spricht der Benutzer oder hört er zu?

Die beiden Zustände sind:

Der Benutzer spricht
Der Benutzer hört zu

Diese Sprechwechselerkennungslogik bildet den Kern jedes Sprachsystems. Die Implementierung ist auf GitHub als Referenz und für die Weiterentwicklung verfügbar.

📖 Read the full source: HN AI Agents