Mistral Voxtral 4B : Reconnaissance Vocale en C Pur

Le Mistral Voxtral Realtime 4B est un modèle de reconnaissance vocale implémenté en C pur, offrant une alternative sans dépendances pour ceux qui s'appuient exclusivement sur la bibliothèque standard C. Le dépôt voxtral.c par antirez facilite le pipeline d'inférence sans nécessiter d'environnement Python, de boîte à outils CUDA ou d'aucune autre bibliothèque externe au moment de l'inférence.

Caractéristiques principales

Implémentation en C pur : Aucune dépendance externe au-delà de la bibliothèque standard C n'est requise, ce qui le rend adapté aux environnements où une dépendance minimale est critique.
Backends spécifiques à la plateforme : Propose deux cibles de compilation : make mps pour Apple Silicon, offrant un traitement plus rapide, et make blas pour les systèmes Intel Mac ou Linux équipés d'OpenBLAS, bien qu'avec des performances plus lentes en raison des besoins de conversion de bf16 à fp32.
Traitement audio : Utilise un encodeur par segments avec fenêtres superposées pour limiter l'utilisation de la mémoire, quelle que soit la longueur de l'entrée. Il permet également une entrée audio via stdin ou microphone sur macOS, améliorant ainsi sa polyvalence pour les tâches de transcription en direct ou à partir de fichiers.
API C en streaming : L'API, vox_stream_t, permet l'alimentation audio incrémentielle et génère des chaînes de jetons au fur et à mesure de leur production.

Utilisation

Téléchargez le modèle (~8,9 Go) en utilisant ./download_model.sh.
Pour la transcription audio à partir d'un fichier : ./voxtral -d voxtral-model -i audio.wav.
Transcription en direct à partir d'un microphone sur macOS : ./voxtral -d voxtral-model --from-mic.
Transcodage et transcription avec ffmpeg : ffmpeg -i audio.mp3 -f s16le -ar 16000 -ac 1 - 2> /dev/null | ./voxtral -d voxtral-model --stdin.

Le projet est ouvert à des tests supplémentaires, car il repose actuellement sur des échantillons limités. Une préparation complète pour la production pourrait nécessiter plus de travail, notamment dans la gestion des transcriptions longues pour tester le tampon circulaire du cache KV.

📖 Lire la source complète : HN AI Agents

Exploration de Mistral Voxtral Realtime 4B en C pur pour la reconnaissance vocale

Caractéristiques principales

Utilisation

👀 See Also

Agent d'IA local atteint une latence STT et TTS inférieure à la seconde avec des serveurs open source

cc-lens : Tableau de bord local pour l'analyse des sessions de code Claude

Clawpage : Un outil qui convertit les conversations OpenClaw en sites web statiques

Claude-Skills Maintainer Sollicite des Retours sur la Bibliothèque de 181 Agent Skills