Lokale Sprach-zu-Text-Transkription für OpenClaw mit Parakeet TDT 0.6b v3

Lokale Transkriptionseinrichtung für OpenClaw
Ein Community-Entwickler hat NVIDIAs Parakeet TDT 0.6b v3 Modell für die lokale Spracherkennung innerhalb von OpenClaw angepasst. Das Modell läuft über ONNX-Inferenz auf der CPU, wodurch API-Kosten entfallen und 25 europäische Sprachen unterstützt werden.
Technische Umsetzung
Die Lösung nutzt ein GitHub-Repository (groxaxo/parakeet-tdt-0.6b-v3-fastapi-openai), das einen Docker-Container für die CPU-Bereitstellung bereitstellt. Der Container stellt einen OpenAI-kompatiblen API-Endpunkt unter http://127.0.0.1:5092/v1 bereit.
Unterstützte Sprachen umfassen: Bulgarisch (bg), Kroatisch (hr), Tschechisch (cs), Dänisch (da), Niederländisch (nl), Englisch (en), Estnisch (et), Finnisch (fi), Französisch (fr), Deutsch (de), Griechisch (el), Ungarisch (hu), Italienisch (it), Lettisch (lv), Litauisch (lt), Maltesisch (mt), Polnisch (pl), Portugiesisch (pt), Rumänisch (ro), Slowakisch (sk), Slowenisch (sl), Spanisch (es), Schwedisch (sv), Russisch (ru) und Ukrainisch (uk).
Integration mit OpenClaw
Der Entwickler stellt ein Python-Skript für die Transkription bereit:
#!/home/openclaw/.local/share/pipx/venvs/openai/bin/python
import sys
from openai import OpenAI
client = OpenAI(
base_url="http://127.0.0.1:5092/v1",
api_key="sk-no-key-required"
)
audio_file = open(sys.argv[1], "rb")
transcript = client.audio.transcriptions.create(
model="parakeet-tdt-0.6b-v3",
file=audio_file,
response_format="text"
)
print(transcript)
Dieses Skript kann in OpenClaws openclaw.json-Datei konfiguriert werden:
"tools": {
"media": {
"audio": {
"enabled": true,
"models": [
{
"type": "cli",
"command": "/home/openclaw/.local/bin/transcribe",
"args": ["{{MediaPath}}"],
"timeoutSeconds": 60
}
]
}
}
}Alternativ kann OpenClaw so konfiguriert werden, dass es direkt den OpenAI-kompatiblen API-Endpunkt mit dem Modellnamen und dem Dummy-API-Schlüssel aus dem Skript verwendet.
Bereitstellungshinweise
Der Entwickler testete dies auf einer ARM64 Ubuntu Linux VM auf einem Mac Mini mit M4 Pro und merkte an, dass es auf jeder leistungsstarken Intel-kompatiblen CPU angemessen schnell laufen sollte. Der Docker-Container wird gemäß den README-Anweisungen im GitHub-Repository erstellt.
📖 Read the full source: r/openclaw
👀 Siehe auch

FixAI: Browserspiel lehrt Verbraucherrecht durch Kampf gegen Unternehmens-KI-Bots
FixAI ist ein Browserspiel mit 36 Leveln, in dem Spieler gegen KI-Systeme von Unternehmen oder Regierungen argumentieren, indem sie echte Verbrauchergesetze nutzen. Entwickelt mit Vanilla JS, Node/Express und Claude Haiku, verfügt es über ein Resistenz-Punktesystem und erläuternde Erklärungen zu rechtlichen Argumenten.

Der Human Creativity Benchmark: Trennung von Konvergenz und Divergenz in der KI-Kreativitätsbewertung
Contra Labs führt den Human Creativity Benchmark (HCB) ein, ein Framework, das objektiv überprüfbare Kriterien (z. B. Einhaltung der Aufgabenstellung) von subjektivem Geschmack (z. B. visuelle Anziehungskraft) bei der Bewertung generativer KI für kreative Arbeiten unterscheidet. Der Benchmark zeigt, dass kein aktuelles Modell zuverlässig sowohl korrekt als auch steuerbar ist, und adressiert Mode Collapse sowie die Notwendigkeit differenzierter Ergebnisse.

Agent Image Skills: Einfache Bildhosting für Claude Code Agents
Ein Entwickler hat einen einfachen Bildhosting-Dienst unter https://images.labnocturne.com erstellt, um das Problem zu lösen, dass Claude Code-Agenten Bilder generieren, aber keinen Speicherort dafür haben. Der Dienst bietet sofortige Test-Schlüssel per curl, löscht Dateien automatisch nach 7 Tagen und enthält Claude Code MCP-Fähigkeiten für Upload, Dateiauflistung und Löschung.

Der Aufbau eines autonomen Forschungsagents mit C# und lokalen LLMs
Ein C#-Forschungsagent automatisiert die URL-Verarbeitung mit lokalen LLMs, die Ollama und llama3.1:8b verwenden, und erstellt strukturierte Markdown-Berichte aus Web-Suchen.