Entwickler erreicht Sub-Sekunden-Latenz bei STT/TTS mit lokalen Whisper- und Coqui-TTS-Servern

Ein Entwickler hat Open-Source-Server-Implementierungen geteilt, die eine Latenz von unter einer Sekunde für Spracherkennung und Sprachsynthese in lokalen KI-Agenten erreichen und damit die typische Konversationsverzögerung cloudbasierter Lösungen beseitigen.
Leistungsbenchmarks
Die Implementierung erreicht:
- ~0,2 Sekunden Latenz für Spracherkennung (STT)
- ~250 ms Latenz für Sprachsynthese (TTS)
Dies stellt eine deutliche Verbesserung gegenüber den zuvor genannten 2-3 Sekunden Wartezeiten als Engpass dar.
Technische Implementierung
STT-Server
- Erstellt mit Whisper large-v3-turbo
- Benutzerdefinierte Bridge-Implementierung
- Hybride GPU-Architektur mit Thread-Management für Nebenläufigkeit ohne VRAM-Engpässe
TTS-Server
- Verwendet Coqui-TTS auf einem lokalen Server
- OpenAI-kompatible API
- Für niedrige Latenz bei der Synthese optimiert
- Beinhaltet geklonte Paul Bettany/Jarvis-Stimme
Hardware-Anforderungen
- Dedizierter Knoten mit NVIDIA RTX GPU
- GPU-Beschleunigung ist für diese Geschwindigkeiten zwingend erforderlich
Open-Source-Komponenten
Der Entwickler hat zwei GitHub-Repositories veröffentlicht:
Diese beinhalten Server-Implementierungen und OpenClaw-Integrationsskripte zum Aufbau lokaler Agenten.
Ergebnisse
Der Agent zeigt nun wirklich konversationelles Verhalten mit:
- Korrekter Unterbrechungsbehandlung
- Fast sofortigen Antworten
- Keiner Übertragung von Audiodaten an externe APIs
Der Entwickler steht für Fragen zur Server-Einrichtung, VRAM-Verwaltung und Integration in andere KI-Projekte zur Verfügung.
📖 Read the full source: r/LocalLLaMA
👀 Siehe auch

Claude Hindsight: Beobachtungstool für Claude-Code-Sitzungen
Claude Hindsight ist eine Open-Source-Beobachtungsschicht für Claude Code, die Tool-Aufrufe, Tokens und Fehler in ein erkundbares Dashboard erfasst. Der Ersteller nutzte es, um ein Open-Source-Projekt in einer einzigen 11-stündigen Sitzung mit 733 Tool-Aufrufen und 692,8M Cache-Tokens zu refaktorisieren.

PocketBot: iOS-App nutzt Claude, um deterministische JavaScript-Automationen aus natürlicher Sprache zu generieren
PocketBot ist eine iOS-Mobilanwendungs-Automatisierungs-App, die Claude über AWS Bedrock nutzt, um Anfragen in natürlicher Sprache in eigenständige JavaScript-Skripte umzuwandeln. Das LLM schreibt den Code einmal, dann laufen die deterministischen Skripte nach Zeitplan in einer abgeschotteten Laufzeitumgebung ohne KI-Beteiligung.

Rival-Review: Ein Cross-Modell-Review-Loop für KI-Agenten-Pläne
Rival-review ist ein unter MIT-Lizenz stehendes Tool, das ein zweites KI-Modell nutzt, um Pläne eines primären KI-Coding-Agenten vor der Ausführung zu überprüfen und dabei Probleme wie fehlerhafte Rollback-Pläne, Sicherheitslücken und Entscheidungen auf Basis veralteter Zustände zu erkennen.

Hollow Agent OS: Lokale KI-Arbeiter rufen Claude als leitenden Architekten, wenn sie feststecken
Das Hollow Agent OS verwendet lokale Qwen-Modelle, die rund um die Uhr laufen. Wenn sie jedoch auf Logikfehler stoßen oder größere Änderungen benötigen, lösen sie über MCP einen Claude-Aufruf aus. Claude reorganisiert Dateistrukturen, überprüft Code und fungiert als Manager für autonome lokale Arbeiter.