ClawVibe: Ein freihändiger iOS-Sprachassistent für KI-Agenten mit geräteinternem STT/TTS

ClawVibe ist ein nativer iOS-Sprachassistent, mit dem du völlig freihändig mit deinem KI-Agenten sprechen kannst – entwickelt für die Nutzung während der Fahrt. Der Entwickler baute die App, nachdem er das Problem eines 45-minütigen Arbeitswegs hatte, bei dem Lösungen mit dem Telefon in der Hand unsicher und Weboberflächen tippintensiv waren. Nach zwei Monaten Arbeit ist die App nun in der TestFlight-Beta und wird kostenlos im App Store erhältlich sein.
Wichtige technische Entscheidungen
Die zentrale Architekturentscheidung: Die gesamte Audioverarbeitung erfolgt auf dem Gerät. Die erste Version streamte Sprachaudio zur Transkription an einen Server, hatte aber mit Latenzspitzen und Paketverlusten in mobilen Netzen zu kämpfen. Die Lösung bestand darin, die Spracherkennung und Text-to-Speech auf dem Telefon durchzuführen und nur den reinen Text über das Netzwerk zu senden. Das beseitigt Konnektivitätsprobleme; die App funktioniert sogar in Gebieten mit kaum Empfang.
Die Verarbeitung auf dem Gerät brachte eine Backend-Herausforderung mit sich: Die meisten ML-Modelle nutzen Apples Metal-Framework (GPU-Beschleunigung), das Apple im Hintergrund nicht zulässt. Daher fällt die App auf Standard-CoreML ohne GPU-Beschleunigung zurück, um die Spracherkennung und -verarbeitung bei ausgeschaltetem Bildschirm aktiv zu halten – ein notwendiger Kompromiss für die Freihandnutzung.
Hintergrundgeräusche (GPS-Anweisungen, Gespräche, Radio) waren ein weiterer Schmerzpunkt. Die Lösung ist Sprachbiometrie: Die App lernt dein Sprachprofil und sendet nur erkannte Sprache an den KI-Agenten. GPS-Ansagen und andere Geräusche werden ignoriert.
Funktionen
- Geräteinterne Spracherkennung: Lokale Transkription; kein Audio wird an Apple oder Google gesendet. Nur der Text geht an dein KI-Backend.
- Geräteinternes TTS: Mehrere Sprachoptionen, Ausgabe über Telefon- oder CarPlay-Lautsprecher.
- Immer aktive Spracherkennung: Kein Tastendruck oder Aktivierungswort; die App erkennt, wenn du sprichst.
- CarPlay-Integration: Völlig freihändig im Auto – der ursprüngliche Grund für die Entwicklung.
- Primäre Spracherkennung: Nur deine registrierte Stimme löst den KI-Agenten aus; Hintergrundgeräusche werden herausgefiltert.
- GPS-Kontext: Standortdaten werden mit jeder Nachricht gesendet, um kontextbezogene Antworten zu ermöglichen.
Backend & Verfügbarkeit
Du benötigst ein eigenes KI-Backend, um ClawVibe anzubinden. Die App unterstützt verschiedene Setups, weitere Integrationen sind in Arbeit. Falls du bereits eine OpenClaw-Instanz betreibst, bist du startklar. Andernfalls kannst du die App mit einem lokalen Gerätemodell testen.
Die App ist derzeit in der TestFlight-Beta. Eine kostenlose App-Store-Version wird die vollständige Kern-Sprachfunktionalität bieten. Eine Premium-Stufe (kommt später) wird weitere Stimmen, mehrere Sprachprofile, eine erweiterte CarPlay-Oberfläche, Apple Watch-Unterstützung und mehr hinzufügen.
Für wen sie gedacht ist
Entwickler, die KI-Agenten selbst hosten und eine datenschutzorientierte, freihändige Sprachschnittstelle für die Fahrt oder andere Situationen suchen, in denen die Hände beschäftigt sind.
📖 Read the full source: r/openclaw
👀 Siehe auch

Superglue CLI: Lassen Sie KI-Agenten API-Aufrufe ohne vorgefertigte Tools ausführen
Superglue CLI bietet eine Fähigkeit, die KI-Codierungsagenten beibringt, wie man seine Befehle verwendet, Authentifizierung handhabt, Tools erstellt und Fehler debuggt. Anstatt vorgefertigte Tools für jede API-Integration zu erstellen, können Agenten API-Spezifikationen zur Laufzeit lesen und mehrstufige Aufrufe planen.

Vergleich von Multi-Agenten-KI-Systemen: Anthropics Harness vs. Agyns Engineering Org Model
Anthropic veröffentlichte ein Harness-Design für die Entwicklung lang laufender Anwendungen, während Agyns Multi-Agenten-System für team-basierte autonome Softwareentwicklung letzten Monat als Open Source veröffentlicht wurde. Beide Systeme lehnen monolithische Agenten ab und setzen stattdessen auf Rollentrennung, strukturierte Übergaben und Review-Schleifen.

Kontext-Routing-Schicht reduziert Claude-Code-Token-Verbrauch durch Verfolgung aufgerufener Dateien
Ein Entwickler sparte etwa 80 US-Dollar pro Monat bei der Nutzung von Claude Code, indem er eine Kontext-Routing-Ebene hinzufügte, die verhindert, dass die KI bei Folgefragen dieselben Repository-Dateien erneut liest. Das Tool verfolgt, welche Dateien bereits aufgerufen wurden, um redundanten Token-Verbrauch zu reduzieren.

Skillware fügt prompt_rewriter für deterministische Token-Kompression in Claude API-Agenten-Schleifen hinzu
Skillware hat eine neue prompt_rewriter-Funktion integriert, die Prompts vor dem Senden an die Claude-API um 50-80% komprimiert, wodurch Kosten in agentenbasierten Schleifen reduziert werden, während das deterministische Komprimieren ein stabiles Verhalten gewährleistet.