Explorando Mistral Voxtral Realtime 4B em C Puro para Conversão de Fala em Texto

✍️ OpenClawRadar📅 Publicado: February 13, 2026🔗 Source
Explorando Mistral Voxtral Realtime 4B em C Puro para Conversão de Fala em Texto
Ad

O Mistral Voxtral Realtime 4B é um modelo de conversão de fala em texto implementado em C puro, oferecendo uma alternativa livre de dependências para aqueles que dependem exclusivamente da biblioteca padrão C. O repositório, voxtral.c de antirez, facilita o pipeline de inferência sem exigir runtime Python, toolkit CUDA ou qualquer outra biblioteca externa no momento da inferência.

Principais Características

  • Implementação em C Puro: Nenhuma dependência externa além da biblioteca padrão C é necessária, tornando-o adequado para ambientes onde dependência mínima é crítica.
  • Backends Específicos de Plataforma: Oferece dois alvos de compilação: make mps para Apple Silicon, que fornece processamento mais rápido, e make blas para sistemas Intel Mac ou Linux equipados com OpenBLAS, embora com desempenho mais lento devido à necessidade de conversão de bf16 para fp32.
  • Processamento de Áudio: Utiliza um codificador segmentado com janelas sobrepostas para limitar o uso de memória, independentemente do comprimento da entrada. Também permite entrada de áudio via stdin ou microfone no macOS, aumentando sua versatilidade para tarefas de transcrição ao vivo ou baseadas em arquivos.
  • API de Streaming em C: A API, vox_stream_t, permite alimentação incremental de áudio e gera strings de tokens conforme são produzidos.
Ad

Uso

  • Baixe o modelo (~8,9GB) usando ./download_model.sh.
  • Para transcrição de áudio de um arquivo: ./voxtral -d voxtral-model -i audio.wav.
  • Transcrição ao vivo de um microfone no macOS: ./voxtral -d voxtral-model --from-mic.
  • Transcodificação e transcrição com ffmpeg: ffmpeg -i audio.mp3 -f s16le -ar 16000 -ac 1 - 2> /dev/null | ./voxtral -d voxtral-model --stdin.

O projeto está aberto a mais testes, pois atualmente depende de amostras limitadas. A prontidão total para produção pode exigir mais trabalho, especialmente no tratamento de transcrições longas para testar o buffer circular do cache KV.

📖 Leia o código-fonte completo: HN AI Agents

Ad

👀 See Also

Arnês do Navegador: Concedendo aos LLMs acesso bruto ao CDP para autocorrigir tarefas no navegador
Tools

Arnês do Navegador: Concedendo aos LLMs acesso bruto ao CDP para autocorrigir tarefas no navegador

Browser Harness elimina frameworks de navegador, dando às LLMs acesso direto ao websocket CDP e permitindo que elas escrevam ferramentas ausentes durante a tarefa. Demonstrado pela auto-invenção de uma função upload_file().

OpenClawRadar
Sentido: Go SDK para asserções de teste com LLM e extração de texto estruturado
Tools

Sentido: Go SDK para asserções de teste com LLM e extração de texto estruturado

Sense é um SDK Go que utiliza o Claude para duas funções principais: avaliar saídas não determinísticas em testes com asserções em inglês simples, e extrair structs tipadas de textos não estruturados através de reflexão e tool_use forçado.

OpenClawRadar
Interface Web de Código Aberto para Sessões Paralelas de Código Claude Usando Git Worktree
Tools

Interface Web de Código Aberto para Sessões Paralelas de Código Claude Usando Git Worktree

Um desenvolvedor criou uma interface web de código aberto chamada CCUI que permite executar múltiplas sessões do Claude Code em paralelo usando git worktree. Ela funciona como um servidor web local acessível via navegador e suporta encaminhamento de porta SSH para desenvolvimento remoto.

OpenClawRadar
Gerenciando Contexto de IA com um Armazenamento de Conhecimento SQLite e Ferramentas MCP
Tools

Gerenciando Contexto de IA com um Armazenamento de Conhecimento SQLite e Ferramentas MCP

Um desenvolvedor construiu o RunawayContext, um sistema licenciado sob MIT que armazena lições de projetos em SQLite com FTS5 e sqlite-vec opcional, mantendo o contexto por sessão abaixo de 3K tokens por meio de ferramentas de consulta MCP e limites fixos em código.

OpenClawRadar