Lokale Sprachsteuerungseinrichtung für KI-Agenten auf Apple Silicon

Diese Einrichtung beschreibt, wie man lokale Sprachsteuerung für KI-Agenten mit Parakeet STT und Kokoro TTS auf Apple Silicon implementiert, speziell getestet auf einem Mac Mini M4. Das Ziel war es, eine vollständig lokale und schnelle Sprachinteraktionsschicht zu erreichen, ohne Abhängigkeiten von Cloud-Diensten.
Wichtige Details
- Hardware: Mac Mini M4, der OpenClaw + Claude als KI-Agent verwendet.
- Softwareeinrichtung: Parakeet für Spracherkennung (STT), das Sprachinput in ungefähr 240 ms transkribiert, und Kokoro für Text-zu-Sprache (TTS), das nahezu sofortige Antworten liefert.
- Vorteile: Der Wechsel von der Texteingabe zu Sprachbefehlen verbessert die Flexibilität des Workflows erheblich und ermöglicht betriebsunabhängige Arbeit, beispielsweise vom Balkon oder beim Gassigehen mit dem Hund.
- Herausforderungen: Gelegentlich hat STT Schwierigkeiten mit der Akzenterkennung, was humorvoll dazu führen kann, dass der KI-Agent die Aussprache des Nutzers korrigiert.
- Verbesserungen: Eine Browsererweiterung, die einen 3D-Avatar namens Mimora integriert, ermöglicht visuelle Interaktionen und zeigt verschiedene Ausdrücke wie Zuhören, Nachdenken und Freude während der Antworten des Agenten.
Diese Konfiguration ist ideal für alle, die cloud-unabhängige, schnelle Sprachinteraktion mit KI-Agenten suchen, insbesondere mit Apple Silicon Hardware.
📖 Lesen Sie die vollständige Quelle: r/LocalLLaMA
👀 Siehe auch

MCP-Unterstützung in llama.cpp integriert mit neuen WebUI-Funktionen
Der Pull Request für das Model Context Protocol (MCP) für llama.cpp wurde gemerged, wodurch MCP-Unterstützung, Tool-Aufrufe, eine agentische Schleife und einen Server-Selektor zur llama-server/WebUI-Seite hinzugefügt werden.

iai-mcp: Lokaler Daemon verleiht Claude dauerhaften Speicher über Sitzungen hinweg mit 99% Rückruf
iai-mcp ist ein Open-Source-Local-Daemon, der jedes Claude-Gespräch erfasst, es in drei Speicherstufen organisiert und bei neuen Sitzungen den Kontext zurückgibt. Er erzielt >99% wörtliche Wiederholung, Abruf unter 100ms und Kosten unter 3.000 Tokens zu Sitzungsbeginn.

OpenAlly: Lokaler KI-Assistent für Android mit Telefonsteuerung
OpenAlly ist eine Android-App, die einen KI-Assistenten lokal auf Ihrem Smartphone über einen eingebetteten Node.js-Prozess ausführt, mit 51 integrierten Funktionen und Telefonsteuerungsfähigkeiten über den Aster-Begleiter. Sie verbindet sich mit über 19 Messaging-Plattformen und unterstützt 18 Modellanbieter mit Ihren eigenen API-Schlüsseln.

git-prism v0.9.0: KI-Codierungsagenten mit strukturierten Diffs via MCP versorgen
git-prism ist ein MCP-Server, der rohen Git-Diff-Text durch strukturiertes JSON für KI-Codierungsagenten ersetzt. v0.9.0 fängt Git-Aufrufe auf PATH-Ebene ab und erfasst Subprozesse sowie gh-Befehle.