Aufbau eines Sprachassistenten mit unter 500 ms Latenz: Architektur und Leistungseinblicke

✍️ OpenClawRadar📅 Veröffentlicht: 3. März 2026🔗 Source
Aufbau eines Sprachassistenten mit unter 500 ms Latenz: Architektur und Leistungseinblicke
Ad

Architektur und Leistung des Sprachagenten

Nick Tikhonov hat einen Sprachagenten von Grund auf neu gebaut, der durchschnittlich ~400 ms End-to-End-Latenz (Ende des Anrufs → erste Silbe) erreicht. Dies umfasst vollständiges STT → LLM → TTS in der Schleife mit sauberen Unterbrechungen und ohne vorberechnete Antworten. Die Implementierung übertraf das entsprechende Setup von Vapi bei der Latenz um das 2-fache.

Kern technische Erkenntnisse

Die entscheidende Erkenntnis war, dass Sprache ein Problem des Sprechwechsels ist, kein Transkriptionsproblem. Voice Activity Detection (VAD) allein reicht nicht aus; eine semantische Sprechwechselerkennung ist erforderlich. Das System reduziert sich auf eine Schleife mit zwei Zuständen: Sprechen vs. Zuhören.

Die kritischen Übergänge sind:

  • Sofortiges Abbrechen bei Unterbrechung
  • Sofortiges Antworten bei Sprechwechsel

Technische Anforderungen

STT → LLM → TTS muss streamen. Sequentielle Pipelines sind für natürliche Gespräche ineffektiv. Die Zeit bis zum ersten Token (TTFT) dominiert alles in Sprachschnittstellen - der erste Token ist der kritische Pfad. Groqs ~80 ms TTFT wurde als der größte Leistungsgewinn identifiziert.

Infrastrukturüberlegungen

Geografie ist wichtiger als Eingabeaufforderungen. Alle Komponenten müssen gemeinsam platziert werden, sonst wird die Latenz unerträglich, bevor das System überhaupt mit der Verarbeitung beginnt. Der Aufbau dauerte etwa einen Tag und kostete ungefähr 100 US-Dollar an API-Guthaben.

Ad

Warum Sprachagenten herausfordernd sind

Sprachagenten stellen einen erheblichen Komplexitätsanstieg im Vergleich zu Textagenten dar. Die Orchestrierung ist kontinuierlich und in Echtzeit, was eine sorgfältige Verwaltung mehrerer Modelle gleichzeitig erfordert. Das System muss ständig entscheiden, ob der Benutzer spricht oder zuhört, wobei die Übergänge zwischen diesen Zuständen der schwierigste Aspekt sind.

Wenn der Benutzer zu sprechen beginnt, muss der Agent sofort aufhören zu sprechen - die Generierung abbrechen, die Sprachsynthese abbrechen und jeglichen gepufferten Audioinhalt löschen. Wenn der Benutzer aufhört zu sprechen, muss das System sicher entscheiden, dass er fertig ist, und mit minimaler Verzögerung antworten.

Architekturansatz

Der Entwickler begann damit, die Architektur mit ChatGPT außerhalb des Editors zu iterieren, um zunächst ein mentales Modell aufzubauen. Das gesamte Problem wurde auf eine einzelne Schleife und einen winzigen Zustandsautomaten reduziert. Die Kernfrage, die ein Sprachagent beantworten muss, lautet: Spricht der Benutzer oder hört er zu?

Die beiden Zustände sind:

  • Der Benutzer spricht
  • Der Benutzer hört zu

Diese Sprechwechselerkennungslogik bildet den Kern jedes Sprachsystems. Die Implementierung ist auf GitHub als Referenz und für die Weiterentwicklung verfügbar.

📖 Read the full source: HN AI Agents

Ad

👀 Siehe auch

OpenPlawd: OpenClaw-Fähigkeit für automatisierte Plaud-Besprechungsnotizen
Werkzeuge

OpenPlawd: OpenClaw-Fähigkeit für automatisierte Plaud-Besprechungsnotizen

OpenPlawd ist eine OpenClaw-Fähigkeit, die Plaud-Aufnahmen automatisch in strukturierte HTML-Meetingnotizen verarbeitet. Sie ruft Plaud-Konten stündlich ab, transkribiert mit Whisper oder OpenAI, teilt große Dateien in Abschnitte auf und generiert Notizen mit Aktionspunkten über einen OpenClaw-Agenten.

OpenClawRadar
Küsten: Containerisierte Hosts für die Ausführung mehrerer Localhost-Umgebungen
Werkzeuge

Küsten: Containerisierte Hosts für die Ausführung mehrerer Localhost-Umgebungen

Coasts ist eine Docker-in-Docker-Lösung, die das Problem des gleichzeitigen Betriebs mehrerer Localhost-Umgebungen löst, Portkonflikte, Secrets und Volume-Topologien behandelt, ohne komplexe Skripterstellung zu erfordern.

OpenClawRadar
TEMM1E v3.1.0: KI-Agent, der sich selbst durch Benutzerinteraktionen feinabstimmt
Werkzeuge

TEMM1E v3.1.0: KI-Agent, der sich selbst durch Benutzerinteraktionen feinabstimmt

TEMM1E v3.1.0 führt Eigen-Tune ein, ein System, das LLM-Interaktionen als Trainingsdaten erfasst, die Qualität aus Nutzerverhalten bewertet und lokale Modelle via LoRA feinabstimmt – ohne zusätzliche LLM-Kosten. Getestet auf Apple M2 korrigierte es Temperaturumrechnungen von 72°F = '150°C' auf '21,2°C' nach 10 Konversationen.

OpenClawRadar
Kostenloses MCP ermöglicht Claude die automatische Analyse von Google Search Console-Daten
Werkzeuge

Kostenloses MCP ermöglicht Claude die automatische Analyse von Google Search Console-Daten

Ein kostenloser MCP-Server (Model Context Protocol) ermöglicht es Claude, Google Search Console-Daten für jede Website abzufragen, auf die Sie Zugriff haben. Fragen Sie nach Suchanfragen, Seiten, Klicks, Impressionen, CTR und Position – ohne manuellen CSV-Export.

OpenClawRadar