Lokale Whisper & Coqui TTS: 0,2s Latenz für STT/TTS

Ein Entwickler hat Open-Source-Server-Implementierungen geteilt, die eine Latenz von unter einer Sekunde für Spracherkennung und Sprachsynthese in lokalen KI-Agenten erreichen und damit die typische Konversationsverzögerung cloudbasierter Lösungen beseitigen.

Leistungsbenchmarks

Die Implementierung erreicht:

~0,2 Sekunden Latenz für Spracherkennung (STT)
~250 ms Latenz für Sprachsynthese (TTS)

Dies stellt eine deutliche Verbesserung gegenüber den zuvor genannten 2-3 Sekunden Wartezeiten als Engpass dar.

Technische Implementierung

STT-Server

Erstellt mit Whisper large-v3-turbo
Benutzerdefinierte Bridge-Implementierung
Hybride GPU-Architektur mit Thread-Management für Nebenläufigkeit ohne VRAM-Engpässe

TTS-Server

Verwendet Coqui-TTS auf einem lokalen Server
OpenAI-kompatible API
Für niedrige Latenz bei der Synthese optimiert
Beinhaltet geklonte Paul Bettany/Jarvis-Stimme

Hardware-Anforderungen

Dedizierter Knoten mit NVIDIA RTX GPU
GPU-Beschleunigung ist für diese Geschwindigkeiten zwingend erforderlich

Open-Source-Komponenten

Der Entwickler hat zwei GitHub-Repositories veröffentlicht:

Diese beinhalten Server-Implementierungen und OpenClaw-Integrationsskripte zum Aufbau lokaler Agenten.

Ergebnisse

Der Agent zeigt nun wirklich konversationelles Verhalten mit:

Korrekter Unterbrechungsbehandlung
Fast sofortigen Antworten
Keiner Übertragung von Audiodaten an externe APIs

Der Entwickler steht für Fragen zur Server-Einrichtung, VRAM-Verwaltung und Integration in andere KI-Projekte zur Verfügung.

📖 Read the full source: r/LocalLLaMA

Entwickler erreicht Sub-Sekunden-Latenz bei STT/TTS mit lokalen Whisper- und Coqui-TTS-Servern

Leistungsbenchmarks

Technische Implementierung

STT-Server

TTS-Server

Hardware-Anforderungen

Open-Source-Komponenten

Ergebnisse

👀 Siehe auch

Visual Studio 2022-Erweiterung fügt native Ollama-Integration für lokale LLMs hinzu

Claude Code v2.1.166: Fallback-Modelle, globale Ablehnungsregeln, Sitzungsübergreifende Härtung

Git Pre-Commit-Hook verhindert, dass KI-Coding-Agents veraltete Dokumentation committen.

Axe: Ein 12-MB-CLI für Single-Purpose-LLM-Agenten