Build Sprachassistent mit OpenClaw, Alexa & lokalem LLM

Ein Entwickler teilte seine Implementierung eines sprachgesteuerten Assistenten, der OpenClaw als KI-Agenten-Backbone nutzt, mit Alexa für Sprachinteraktion und einem lokalen LLM für kosteneffiziente Anfragebearbeitung integriert.

Wie es funktioniert

Das System wird durch den Befehl "Alexa, öffne Lucy" zu einer benutzerdefinierten Alexa-Fähigkeit aktiviert. Anfragen werden durch ein vierstufiges Routing-System verarbeitet:

Schnellpfad (0ms): Bearbeitet Zeit, Datum und fest codierte Antworten
Ollama lokales LLM (<1s): Nutzt Qwen 2.5 3B für allgemeine Wissensanfragen, läuft auf einem Mac Mini mit Apple Silicon
Claude-Agent (5-12s): Bearbeitet persönlichen Kontext, Erinnerung und komplexe Schlussfolgerungen
Verzögert + Werkzeuge (bis zu 2min): Verwaltet E-Mail, Websuche und Datenbankabfragen über Home Assistant TTS

Antworten kehren zum selben Alexa-Gerät zurück, das die Anfrage initiiert hat, automatisch erkannt über Home Assistants last_called-Funktion. Das System nutzt Piper TTS auf Home Assistant für neuronale spanische Sprachausgabe auf Sonos-Lautsprechern und kann Morgenbriefings mit Marktdaten, Kalenderinformationen und Geschäftskennzahlen liefern.

Technischer Stack

OpenClaw: KI-Agenten-Backbone mit Unterstützung für Telegram, Alexa und Sprachschnittstellen
Alexa Custom Skill: Node.js-Proxy mit PIN-Authentifizierung und Sitzungsverkettung
Ollama + Qwen 2.5 3B: Lokales LLM mit ~0,5s Antwortzeiten
Home Assistant: Integriert Alexa Media Player, Piper TTS und Geräte-Routing
Piper TTS: Neuronale spanische Stimme für Sonos-Lautsprecher

Wichtige Implementierungsdetails

Der Entwickler stellte fest, dass die Nutzung eines lokalen LLM etwa 80 % der API-Kosten für einfache Fragen einspart, die Claude nicht erfordern. Allerdings merkte er an, dass lokale Modelle "frei halluzinieren" und fügte einen Umgehungsfilter für Geschäfts- und Finanzanfragen hinzu.

Alexa-Spracherkennung wurde als Engpass identifiziert, wobei AMAZON.SearchQuery und mehrere Beispieläußerungen die Genauigkeit verbessern. Die Authentifizierung verwendet userId statt sessionId, da Alexa für jeden Aufruf neue Sitzungen generiert. Der Entwickler speichert Authentifizierung in einer Datei, da In-Memory-Maps Proxy-Neustarts nicht überstehen.

Der Proxy-Code ist als Open Source verfügbar: openclaw-alexa-voice. Zukünftige Pläne umfassen Wake-Word-Erkennung ("Hey Lucy"), Smart-Home-Steuerung und präsenzbasiertes Lautsprecher-Routing.

📖 Read the full source: r/openclaw

Aufbau eines Sprachassistenten mit OpenClaw, Alexa und lokalem LLM

Wie es funktioniert

Technischer Stack

Wichtige Implementierungsdetails

👀 Siehe auch

Benutzer-Workflow: Planung mit Claude.ai und Implementierung mit Claude Code

Claude-Code 24/7 als Hintergrundagent ausführen — 2 Wochen Erfahrung

Wie Claude die Website eines Nicht-Entwicklers mit SEO und AEO auf 10.000 Nutzer brachte

Verwendung von Claude Code für Go-to-Market-Operationen: Kontext-Engineering-Muster