Lokale Sprach-zu-Text-Transkription für OpenClaw mit Parakeet TDT 0.6b v3

✍️ OpenClawRadar📅 Veröffentlicht: 3. März 2026🔗 Source
Lokale Sprach-zu-Text-Transkription für OpenClaw mit Parakeet TDT 0.6b v3
Ad

Lokale Transkriptionseinrichtung für OpenClaw

Ein Community-Entwickler hat NVIDIAs Parakeet TDT 0.6b v3 Modell für die lokale Spracherkennung innerhalb von OpenClaw angepasst. Das Modell läuft über ONNX-Inferenz auf der CPU, wodurch API-Kosten entfallen und 25 europäische Sprachen unterstützt werden.

Technische Umsetzung

Die Lösung nutzt ein GitHub-Repository (groxaxo/parakeet-tdt-0.6b-v3-fastapi-openai), das einen Docker-Container für die CPU-Bereitstellung bereitstellt. Der Container stellt einen OpenAI-kompatiblen API-Endpunkt unter http://127.0.0.1:5092/v1 bereit.

Unterstützte Sprachen umfassen: Bulgarisch (bg), Kroatisch (hr), Tschechisch (cs), Dänisch (da), Niederländisch (nl), Englisch (en), Estnisch (et), Finnisch (fi), Französisch (fr), Deutsch (de), Griechisch (el), Ungarisch (hu), Italienisch (it), Lettisch (lv), Litauisch (lt), Maltesisch (mt), Polnisch (pl), Portugiesisch (pt), Rumänisch (ro), Slowakisch (sk), Slowenisch (sl), Spanisch (es), Schwedisch (sv), Russisch (ru) und Ukrainisch (uk).

Ad

Integration mit OpenClaw

Der Entwickler stellt ein Python-Skript für die Transkription bereit:

#!/home/openclaw/.local/share/pipx/venvs/openai/bin/python
import sys
from openai import OpenAI

client = OpenAI( base_url="http://127.0.0.1:5092/v1", api_key="sk-no-key-required" )

audio_file = open(sys.argv[1], "rb") transcript = client.audio.transcriptions.create( model="parakeet-tdt-0.6b-v3", file=audio_file, response_format="text" ) print(transcript)

Dieses Skript kann in OpenClaws openclaw.json-Datei konfiguriert werden:

"tools": {
    "media": {
        "audio": {
            "enabled": true,
            "models": [
                {
                    "type": "cli",
                    "command": "/home/openclaw/.local/bin/transcribe",
                    "args": ["{{MediaPath}}"],
                    "timeoutSeconds": 60
                }
            ]
        }
    }
}

Alternativ kann OpenClaw so konfiguriert werden, dass es direkt den OpenAI-kompatiblen API-Endpunkt mit dem Modellnamen und dem Dummy-API-Schlüssel aus dem Skript verwendet.

Bereitstellungshinweise

Der Entwickler testete dies auf einer ARM64 Ubuntu Linux VM auf einem Mac Mini mit M4 Pro und merkte an, dass es auf jeder leistungsstarken Intel-kompatiblen CPU angemessen schnell laufen sollte. Der Docker-Container wird gemäß den README-Anweisungen im GitHub-Repository erstellt.

📖 Read the full source: r/openclaw

Ad

👀 Siehe auch

Sprechen Sie mit Claw: Open-Source iOS-Sprachschnittstelle für OpenClaw Telegram Bots
Werkzeuge

Sprechen Sie mit Claw: Open-Source iOS-Sprachschnittstelle für OpenClaw Telegram Bots

Eine Open-Source-iOS-App, die Sprachinteraktion mit OpenClaw-betriebenen Telegram-Bots ermöglicht. Die App sendet Audio an einen lokalen Mac-Server zur Verarbeitung, wobei Antworten sowohl als Text als auch als Audio zurückgegeben werden.

OpenClawRadar
Silos-Dashboard: Open-Source-Web-UI zur Verwaltung von OpenClaw-Agenten
Werkzeuge

Silos-Dashboard: Open-Source-Web-UI zur Verwaltung von OpenClaw-Agenten

Silos Dashboard ist eine MIT-lizenzierte Web-UI zur Verwaltung von OpenClaw-Agenten, die Konfigurationsdateien und die CLI durch eine einzige Oberfläche ersetzt. Sie bietet Agentenverwaltung, Live-Chat mit Streaming, Skill-Installation, Task-Boards, Kanal-Integrationen und Analysen.

OpenClawRadar
Sammlung von 177 OpenClaw SOUL.md-Vorlagen, organisiert in 24 Kategorien
Werkzeuge

Sammlung von 177 OpenClaw SOUL.md-Vorlagen, organisiert in 24 Kategorien

Ein Entwickler hat 177 sofort einsatzbereite SOUL.md-Vorlagen für OpenClaw-Agenten in 24 Kategorien zusammengestellt, darunter Marketing, Entwicklung, Business, DevOps, Finanzen, Kreatives, Daten, Sicherheit, Gesundheit, Recht, Personalwesen und Bildung. Alle Vorlagen sind unter der MIT-Lizenz verfügbar und auf GitHub zu finden.

OpenClawRadar
Nit: Ein Git-Ersatz in Zig, optimiert für die Token-Effizienz von KI-Agenten
Werkzeuge

Nit: Ein Git-Ersatz in Zig, optimiert für die Token-Effizienz von KI-Agenten

Nit ist ein natives Git-Ersatzprogramm, geschrieben in Zig, das den Token-Verbrauch bei gängigen Befehlen wie status, diff, log und show um 35-87% reduziert. Dies wird durch kompakte Standardausgaben und direkte libgit2-Integration erreicht, wodurch der Overhead von Subprozessen entfällt.

OpenClawRadar