Lokale Sprach-zu-Text-Transkription für OpenClaw mit Parakeet TDT 0.6b v3

Lokale Transkriptionseinrichtung für OpenClaw
Ein Community-Entwickler hat NVIDIAs Parakeet TDT 0.6b v3 Modell für die lokale Spracherkennung innerhalb von OpenClaw angepasst. Das Modell läuft über ONNX-Inferenz auf der CPU, wodurch API-Kosten entfallen und 25 europäische Sprachen unterstützt werden.
Technische Umsetzung
Die Lösung nutzt ein GitHub-Repository (groxaxo/parakeet-tdt-0.6b-v3-fastapi-openai), das einen Docker-Container für die CPU-Bereitstellung bereitstellt. Der Container stellt einen OpenAI-kompatiblen API-Endpunkt unter http://127.0.0.1:5092/v1 bereit.
Unterstützte Sprachen umfassen: Bulgarisch (bg), Kroatisch (hr), Tschechisch (cs), Dänisch (da), Niederländisch (nl), Englisch (en), Estnisch (et), Finnisch (fi), Französisch (fr), Deutsch (de), Griechisch (el), Ungarisch (hu), Italienisch (it), Lettisch (lv), Litauisch (lt), Maltesisch (mt), Polnisch (pl), Portugiesisch (pt), Rumänisch (ro), Slowakisch (sk), Slowenisch (sl), Spanisch (es), Schwedisch (sv), Russisch (ru) und Ukrainisch (uk).
Integration mit OpenClaw
Der Entwickler stellt ein Python-Skript für die Transkription bereit:
#!/home/openclaw/.local/share/pipx/venvs/openai/bin/python
import sys
from openai import OpenAI
client = OpenAI(
base_url="http://127.0.0.1:5092/v1",
api_key="sk-no-key-required"
)
audio_file = open(sys.argv[1], "rb")
transcript = client.audio.transcriptions.create(
model="parakeet-tdt-0.6b-v3",
file=audio_file,
response_format="text"
)
print(transcript)
Dieses Skript kann in OpenClaws openclaw.json-Datei konfiguriert werden:
"tools": {
"media": {
"audio": {
"enabled": true,
"models": [
{
"type": "cli",
"command": "/home/openclaw/.local/bin/transcribe",
"args": ["{{MediaPath}}"],
"timeoutSeconds": 60
}
]
}
}
}Alternativ kann OpenClaw so konfiguriert werden, dass es direkt den OpenAI-kompatiblen API-Endpunkt mit dem Modellnamen und dem Dummy-API-Schlüssel aus dem Skript verwendet.
Bereitstellungshinweise
Der Entwickler testete dies auf einer ARM64 Ubuntu Linux VM auf einem Mac Mini mit M4 Pro und merkte an, dass es auf jeder leistungsstarken Intel-kompatiblen CPU angemessen schnell laufen sollte. Der Docker-Container wird gemäß den README-Anweisungen im GitHub-Repository erstellt.
📖 Read the full source: r/openclaw
👀 Siehe auch

Sprechen Sie mit Claw: Open-Source iOS-Sprachschnittstelle für OpenClaw Telegram Bots
Eine Open-Source-iOS-App, die Sprachinteraktion mit OpenClaw-betriebenen Telegram-Bots ermöglicht. Die App sendet Audio an einen lokalen Mac-Server zur Verarbeitung, wobei Antworten sowohl als Text als auch als Audio zurückgegeben werden.

Silos-Dashboard: Open-Source-Web-UI zur Verwaltung von OpenClaw-Agenten
Silos Dashboard ist eine MIT-lizenzierte Web-UI zur Verwaltung von OpenClaw-Agenten, die Konfigurationsdateien und die CLI durch eine einzige Oberfläche ersetzt. Sie bietet Agentenverwaltung, Live-Chat mit Streaming, Skill-Installation, Task-Boards, Kanal-Integrationen und Analysen.

Sammlung von 177 OpenClaw SOUL.md-Vorlagen, organisiert in 24 Kategorien
Ein Entwickler hat 177 sofort einsatzbereite SOUL.md-Vorlagen für OpenClaw-Agenten in 24 Kategorien zusammengestellt, darunter Marketing, Entwicklung, Business, DevOps, Finanzen, Kreatives, Daten, Sicherheit, Gesundheit, Recht, Personalwesen und Bildung. Alle Vorlagen sind unter der MIT-Lizenz verfügbar und auf GitHub zu finden.

Nit: Ein Git-Ersatz in Zig, optimiert für die Token-Effizienz von KI-Agenten
Nit ist ein natives Git-Ersatzprogramm, geschrieben in Zig, das den Token-Verbrauch bei gängigen Befehlen wie status, diff, log und show um 35-87% reduziert. Dies wird durch kompakte Standardausgaben und direkte libgit2-Integration erreicht, wodurch der Overhead von Subprozessen entfällt.