Transcription vocale locale pour OpenClaw utilisant Parakeet TDT 0.6b v3

✍️ OpenClawRadar📅 Publié: March 3, 2026🔗 Source
Transcription vocale locale pour OpenClaw utilisant Parakeet TDT 0.6b v3
Ad

Configuration locale de transcription pour OpenClaw

Un développeur de la communauté a adapté le modèle Parakeet TDT 0.6b v3 de NVIDIA pour la transcription vocale en texte localement dans OpenClaw. Le modèle fonctionne via l'inférence ONNX sur CPU, éliminant les coûts d'API et prenant en charge 25 langues européennes.

Implémentation technique

La solution utilise un dépôt GitHub (groxaxo/parakeet-tdt-0.6b-v3-fastapi-openai) qui fournit un conteneur Docker pour le déploiement sur CPU. Le conteneur expose un point de terminaison API compatible OpenAI à l'adresse http://127.0.0.1:5092/v1.

Les langues prises en charge incluent : bulgare (bg), croate (hr), tchèque (cs), danois (da), néerlandais (nl), anglais (en), estonien (et), finnois (fi), français (fr), allemand (de), grec (el), hongrois (hu), italien (it), letton (lv), lituanien (lt), maltais (mt), polonais (pl), portugais (pt), roumain (ro), slovaque (sk), slovène (sl), espagnol (es), suédois (sv), russe (ru) et ukrainien (uk).

Ad

Intégration avec OpenClaw

Le développeur fournit un script Python pour la transcription :

#!/home/openclaw/.local/share/pipx/venvs/openai/bin/python
import sys
from openai import OpenAI

client = OpenAI( base_url="http://127.0.0.1:5092/v1", api_key="sk-no-key-required" )

audio_file = open(sys.argv[1], "rb") transcript = client.audio.transcriptions.create( model="parakeet-tdt-0.6b-v3", file=audio_file, response_format="text" ) print(transcript)

Ce script peut être configuré dans le fichier openclaw.json d'OpenClaw :

"tools": {
    "media": {
        "audio": {
            "enabled": true,
            "models": [
                {
                    "type": "cli",
                    "command": "/home/openclaw/.local/bin/transcribe",
                    "args": ["{{MediaPath}}"],
                    "timeoutSeconds": 60
                }
            ]
        }
    }
}

Alternativement, OpenClaw peut être configuré pour utiliser directement le point de terminaison API compatible OpenAI avec le nom du modèle et la clé API factice du script.

Notes de déploiement

Le développeur a testé cela sur une VM Ubuntu Linux ARM64 sur un Mac Mini avec M4 Pro, notant que cela devrait fonctionner raisonnablement vite sur n'importe quel CPU Intel compatible décent. Le conteneur Docker est construit en suivant les instructions du README dans le dépôt GitHub.

📖 Lire la source complète : r/openclaw

Ad

👀 See Also

Le développeur d'OpenClaw construit un système de mémoire unifié pour les agents d'IA.
Tools

Le développeur d'OpenClaw construit un système de mémoire unifié pour les agents d'IA.

Un développeur a créé un système de mémoire unifié à 15 outils pour les agents d'IA OpenClaw qui combine des faits structurés, une recherche vectorielle, des graphes d'entités, des chronologies d'épisodes, une compression hiérarchique et une coordination pilotée par événements. Le système fonctionne localement sans dépendances cloud ni frais mensuels.

OpenClawRadar
L'inspecteur de session pour Claude Code offre une visibilité en temps réel sur les opérations des agents d'IA.
Tools

L'inspecteur de session pour Claude Code offre une visibilité en temps réel sur les opérations des agents d'IA.

Vibeyard, un IDE de terminal open-source qui encapsule Claude Code, a ajouté une fonctionnalité d'Inspecteur de Session qui offre une visibilité en temps réel sur les sessions Claude Code avec suivi chronologique, décomposition des coûts, analyses d'outils et surveillance de la fenêtre contextuelle.

OpenClawRadar
Développeur solo utilise Claude + Blender MCP pour créer une vidéo App Store en 90 minutes
Tools

Développeur solo utilise Claude + Blender MCP pour créer une vidéo App Store en 90 minutes

L'utilisateur Reddit Positive_Camel2086 raconte comment il a utilisé Claude avec le serveur Blender MCP pour générer une vidéo de lancement verticale de 10 secondes, en automatisant le gréement de la caméra, les matériaux, le brouillard et les systèmes de particules via des invites conversationnelles.

OpenClawRadar
Réducteur de journaux MCP Server réduit l'utilisation de jetons quand Claude Code lit les journaux
Tools

Réducteur de journaux MCP Server réduit l'utilisation de jetons quand Claude Code lit les journaux

Log Reducer est un serveur MCP qui traite les fichiers journaux côté serveur avant d'envoyer une sortie réduite à Claude Code, évitant ainsi les journaux bruts dans la fenêtre de contexte. Il applique 19 transformations déterministes qui compressent les journaux de 50 à 90 %, avec un journal de 2000 lignes représentant plus de 20 000 jetons retirés des sessions.

OpenClawRadar