Como usar Mistral Voxtral Realtime 4B em C Puro para STT

O Mistral Voxtral Realtime 4B é um modelo de conversão de fala em texto implementado em C puro, oferecendo uma alternativa livre de dependências para aqueles que dependem exclusivamente da biblioteca padrão C. O repositório, voxtral.c de antirez, facilita o pipeline de inferência sem exigir runtime Python, toolkit CUDA ou qualquer outra biblioteca externa no momento da inferência.

Principais Características

Implementação em C Puro: Nenhuma dependência externa além da biblioteca padrão C é necessária, tornando-o adequado para ambientes onde dependência mínima é crítica.
Backends Específicos de Plataforma: Oferece dois alvos de compilação: make mps para Apple Silicon, que fornece processamento mais rápido, e make blas para sistemas Intel Mac ou Linux equipados com OpenBLAS, embora com desempenho mais lento devido à necessidade de conversão de bf16 para fp32.
Processamento de Áudio: Utiliza um codificador segmentado com janelas sobrepostas para limitar o uso de memória, independentemente do comprimento da entrada. Também permite entrada de áudio via stdin ou microfone no macOS, aumentando sua versatilidade para tarefas de transcrição ao vivo ou baseadas em arquivos.
API de Streaming em C: A API, vox_stream_t, permite alimentação incremental de áudio e gera strings de tokens conforme são produzidos.

Uso

Baixe o modelo (~8,9GB) usando ./download_model.sh.
Para transcrição de áudio de um arquivo: ./voxtral -d voxtral-model -i audio.wav.
Transcrição ao vivo de um microfone no macOS: ./voxtral -d voxtral-model --from-mic.
Transcodificação e transcrição com ffmpeg: ffmpeg -i audio.mp3 -f s16le -ar 16000 -ac 1 - 2> /dev/null | ./voxtral -d voxtral-model --stdin.

O projeto está aberto a mais testes, pois atualmente depende de amostras limitadas. A prontidão total para produção pode exigir mais trabalho, especialmente no tratamento de transcrições longas para testar o buffer circular do cache KV.

📖 Leia o código-fonte completo: HN AI Agents

Explorando Mistral Voxtral Realtime 4B em C Puro para Conversão de Fala em Texto

Principais Características

Uso

👀 See Also

Arnês do Navegador: Concedendo aos LLMs acesso bruto ao CDP para autocorrigir tarefas no navegador

Sentido: Go SDK para asserções de teste com LLM e extração de texto estruturado

Interface Web de Código Aberto para Sessões Paralelas de Código Claude Usando Git Worktree

Gerenciando Contexto de IA com um Armazenamento de Conhecimento SQLite e Ferramentas MCP