Voxtral 4B en C puro: Conversión Voz a Texto

El Mistral Voxtral Realtime 4B es un modelo de reconocimiento de voz a texto implementado en C puro, proporcionando una alternativa sin dependencias para aquellos que dependen exclusivamente de la biblioteca estándar de C. El repositorio, voxtral.c de antirez, facilita el pipeline de inferencia sin requerir tiempo de ejecución de Python, toolkit de CUDA, o cualquier otra biblioteca externa durante la inferencia.

Características Principales

Implementación en C Puro: No se requieren dependencias externas más allá de la biblioteca estándar de C, lo que lo hace adecuado para entornos donde es crítico minimizar las dependencias.
Backends Específicos para Plataformas: Ofrece dos objetivos de compilación: make mps para Apple Silicon, que proporciona un procesamiento más rápido, y make blas para sistemas Intel Mac o Linux equipados con OpenBLAS, aunque con un rendimiento más lento debido a las necesidades de conversión de bf16 a fp32.
Procesamiento de Audio: Utiliza un codificador segmentado con ventanas superpuestas para limitar el uso de memoria, independientemente de la longitud de la entrada. También permite la entrada de audio a través de stdin o micrófono en macOS, mejorando su versatilidad para tareas de transcripción en vivo o basadas en archivos.
API de C en Streaming: La API, vox_stream_t, permite la alimentación de audio incremental y genera cadenas de tokens a medida que se crean.

Uso

Descarga el modelo (~8.9GB) utilizando ./download_model.sh.
Para la transcripción de audio desde un archivo: ./voxtral -d voxtral-model -i audio.wav.
Transcripción en vivo desde un micrófono en macOS: ./voxtral -d voxtral-model --from-mic.
Transcodificación y transcripción con ffmpeg: ffmpeg -i audio.mp3 -f s16le -ar 16000 -ac 1 - 2> /dev/null | ./voxtral -d voxtral-model --stdin.

El proyecto está abierto a más pruebas, ya que actualmente se basa en muestras limitadas. La preparación completa para producción podría requerir más trabajo, particularmente en el manejo de transcripciones largas para probar el búfer circular de la caché KV.

📖 Lee la fuente completa: HN AI Agents

Explorando Mistral Voxtral Realtime 4B en C puro para conversión de voz a texto.

Características Principales

Uso

👀 Ver también

Monitor de la Bandeja del Sistema de Windows para la Cuota de Código de Claude

Memento Vault: Herramienta Local para Contexto Persistente en Sesiones de Código Claude

ClawNet: Red de Agentes de IA Peer-to-Peer Sin Claves API

context-link v1.0.0: El servidor MCP local reduce el uso de tokens de Claude Code en un 91%