ClawVibe: Freihändiger iOS-Sprachassistent mit lokalem STT/TTS

ClawVibe ist ein nativer iOS-Sprachassistent, mit dem du völlig freihändig mit deinem KI-Agenten sprechen kannst – entwickelt für die Nutzung während der Fahrt. Der Entwickler baute die App, nachdem er das Problem eines 45-minütigen Arbeitswegs hatte, bei dem Lösungen mit dem Telefon in der Hand unsicher und Weboberflächen tippintensiv waren. Nach zwei Monaten Arbeit ist die App nun in der TestFlight-Beta und wird kostenlos im App Store erhältlich sein.

Wichtige technische Entscheidungen

Die zentrale Architekturentscheidung: Die gesamte Audioverarbeitung erfolgt auf dem Gerät. Die erste Version streamte Sprachaudio zur Transkription an einen Server, hatte aber mit Latenzspitzen und Paketverlusten in mobilen Netzen zu kämpfen. Die Lösung bestand darin, die Spracherkennung und Text-to-Speech auf dem Telefon durchzuführen und nur den reinen Text über das Netzwerk zu senden. Das beseitigt Konnektivitätsprobleme; die App funktioniert sogar in Gebieten mit kaum Empfang.

Die Verarbeitung auf dem Gerät brachte eine Backend-Herausforderung mit sich: Die meisten ML-Modelle nutzen Apples Metal-Framework (GPU-Beschleunigung), das Apple im Hintergrund nicht zulässt. Daher fällt die App auf Standard-CoreML ohne GPU-Beschleunigung zurück, um die Spracherkennung und -verarbeitung bei ausgeschaltetem Bildschirm aktiv zu halten – ein notwendiger Kompromiss für die Freihandnutzung.

Hintergrundgeräusche (GPS-Anweisungen, Gespräche, Radio) waren ein weiterer Schmerzpunkt. Die Lösung ist Sprachbiometrie: Die App lernt dein Sprachprofil und sendet nur erkannte Sprache an den KI-Agenten. GPS-Ansagen und andere Geräusche werden ignoriert.

Funktionen

Geräteinterne Spracherkennung: Lokale Transkription; kein Audio wird an Apple oder Google gesendet. Nur der Text geht an dein KI-Backend.
Geräteinternes TTS: Mehrere Sprachoptionen, Ausgabe über Telefon- oder CarPlay-Lautsprecher.
Immer aktive Spracherkennung: Kein Tastendruck oder Aktivierungswort; die App erkennt, wenn du sprichst.
CarPlay-Integration: Völlig freihändig im Auto – der ursprüngliche Grund für die Entwicklung.
Primäre Spracherkennung: Nur deine registrierte Stimme löst den KI-Agenten aus; Hintergrundgeräusche werden herausgefiltert.
GPS-Kontext: Standortdaten werden mit jeder Nachricht gesendet, um kontextbezogene Antworten zu ermöglichen.

Backend & Verfügbarkeit

Du benötigst ein eigenes KI-Backend, um ClawVibe anzubinden. Die App unterstützt verschiedene Setups, weitere Integrationen sind in Arbeit. Falls du bereits eine OpenClaw-Instanz betreibst, bist du startklar. Andernfalls kannst du die App mit einem lokalen Gerätemodell testen.

Die App ist derzeit in der TestFlight-Beta. Eine kostenlose App-Store-Version wird die vollständige Kern-Sprachfunktionalität bieten. Eine Premium-Stufe (kommt später) wird weitere Stimmen, mehrere Sprachprofile, eine erweiterte CarPlay-Oberfläche, Apple Watch-Unterstützung und mehr hinzufügen.

Für wen sie gedacht ist

Entwickler, die KI-Agenten selbst hosten und eine datenschutzorientierte, freihändige Sprachschnittstelle für die Fahrt oder andere Situationen suchen, in denen die Hände beschäftigt sind.

📖 Read the full source: r/openclaw

ClawVibe: Ein freihändiger iOS-Sprachassistent für KI-Agenten mit geräteinternem STT/TTS

Wichtige technische Entscheidungen

Funktionen

Backend & Verfügbarkeit

Für wen sie gedacht ist

👀 Siehe auch

Superglue CLI: Lassen Sie KI-Agenten API-Aufrufe ohne vorgefertigte Tools ausführen

Vergleich von Multi-Agenten-KI-Systemen: Anthropics Harness vs. Agyns Engineering Org Model

Kontext-Routing-Schicht reduziert Claude-Code-Token-Verbrauch durch Verfolgung aufgerufener Dateien

Skillware fügt prompt_rewriter für deterministische Token-Kompression in Claude API-Agenten-Schleifen hinzu