Entwickler erreicht Sub-Sekunden-Latenz bei STT/TTS mit lokalen Whisper- und Coqui-TTS-Servern

Ein Entwickler hat Open-Source-Server-Implementierungen geteilt, die eine Latenz von unter einer Sekunde für Spracherkennung und Sprachsynthese in lokalen KI-Agenten erreichen und damit die typische Konversationsverzögerung cloudbasierter Lösungen beseitigen.
Leistungsbenchmarks
Die Implementierung erreicht:
- ~0,2 Sekunden Latenz für Spracherkennung (STT)
- ~250 ms Latenz für Sprachsynthese (TTS)
Dies stellt eine deutliche Verbesserung gegenüber den zuvor genannten 2-3 Sekunden Wartezeiten als Engpass dar.
Technische Implementierung
STT-Server
- Erstellt mit Whisper large-v3-turbo
- Benutzerdefinierte Bridge-Implementierung
- Hybride GPU-Architektur mit Thread-Management für Nebenläufigkeit ohne VRAM-Engpässe
TTS-Server
- Verwendet Coqui-TTS auf einem lokalen Server
- OpenAI-kompatible API
- Für niedrige Latenz bei der Synthese optimiert
- Beinhaltet geklonte Paul Bettany/Jarvis-Stimme
Hardware-Anforderungen
- Dedizierter Knoten mit NVIDIA RTX GPU
- GPU-Beschleunigung ist für diese Geschwindigkeiten zwingend erforderlich
Open-Source-Komponenten
Der Entwickler hat zwei GitHub-Repositories veröffentlicht:
Diese beinhalten Server-Implementierungen und OpenClaw-Integrationsskripte zum Aufbau lokaler Agenten.
Ergebnisse
Der Agent zeigt nun wirklich konversationelles Verhalten mit:
- Korrekter Unterbrechungsbehandlung
- Fast sofortigen Antworten
- Keiner Übertragung von Audiodaten an externe APIs
Der Entwickler steht für Fragen zur Server-Einrichtung, VRAM-Verwaltung und Integration in andere KI-Projekte zur Verfügung.
📖 Read the full source: r/LocalLLaMA
👀 Siehe auch

Omnara: Führe Claude Code und Codex von überall aus.
Omnara ist eine web- und mobile IDE, die Entwicklern das Ausführen und Interagieren mit Claude Code und Codex-Sitzungen von überall ermöglicht und Funktionen wie Cloud-Synchronisierung und einen Sprachagenten bietet.

ClamBot: KI-Agent führt LLM-generierten Code in WASM-Sandbox für Sicherheit aus
ClamBot ist ein KI-Agenten-Framework, das allen von LLM generierten Code in einer WebAssembly-Sandbox mit QuickJS in Wasmtime ausführt, wodurch exec()- oder Subprozess-Aufrufe überflüssig werden. Es umfasst eine Genehmigungsschleuse für Tool-Aufrufe, persistentes Script-Caching als 'Clams' und unterstützt mehrere LLM-Anbieter.

OpenTrace: Selbst gehosteter Observability-Server mit über 75 MCP-Tools
OpenTrace ist ein selbst gehosteter Observability-Server, der über 75+ MCP-Tools Logs, Nutzeranalysen und Datenbank-Introspection bietet und auf einem 4-Dollar-VPS mit SQLite-Speicher und schreibgeschützten Postgres-Verbindungen läuft.

Lumyr: Dashboard-Generierung mit Claude, Python und Streamlit-Automatisierung
Lumyr ist ein Tool, das live, teilbare Dashboards aus einfachen englischen Beschreibungen generiert, indem es Claude für die Dashboard-Erstellung nutzt und die Python- und Streamlit-Ebene automatisiert. Benutzer müssen kein Python schreiben, Streamlit öffnen, etwas bereitstellen, Hosting einrichten oder Infrastruktur verwalten.