Voxtral Realtime 4B: реализация на чистом C для STT

Модель Mistral Voxtral Realtime 4B представляет собой модель распознавания речи, реализованную на чистом C, предлагая альтернативу без зависимостей для тех, кто полагается исключительно на стандартную библиотеку C. Репозиторий voxtral.c от antirez упрощает процесс вывода без необходимости в среде выполнения Python, наборе инструментов CUDA или любой другой внешней библиотеке во время вывода.

Ключевые особенности

Чистая C-реализация: Не нужны внешние зависимости, кроме стандартной библиотеки C, что делает ее подходящей для сред, где критически важна минимальная зависимость.
Платформо-зависимые бэкенды: Предоставляет две цели сборки: make mps для Apple Silicon, обеспечивающую более быструю обработку, и make blas для Intel Mac или Linux-систем с OpenBLAS, хотя с меньшей производительностью из-за необходимости конвертации с bf16 на fp32.
Обработка аудио: Использует кодировщик с разбиением на блоки и перекрывающимися окнами для ограничения использования памяти, независимо от длины входного потока. Также позволяет ввод аудио через stdin или микрофон на macOS, что улучшает ее универсальность для задач транскрипции в реальном времени или на основе файлов.
Потоковый C API: API vox_stream_t позволяет инкрементальный ввод аудио и выводит строковые токены по мере их генерации.

Использование

Скачайте модель (~8.9GB) с помощью ./download_model.sh.
Для транскрипции аудио из файла: ./voxtral -d voxtral-model -i audio.wav.
Живая транскрипция с микрофона на macOS: ./voxtral -d voxtral-model --from-mic.
Транскодирование и транскрипция с помощью ffmpeg: ffmpeg -i audio.mp3 -f s16le -ar 16000 -ac 1 - 2> /dev/null | ./voxtral -d voxtral-model --stdin.

Проект открыт для дальнейшего тестирования, так как в настоящее время он зависит от ограниченного числа образцов. Полная готовность к производству может потребовать дополнительной работы, особенно в обработке длинных транскрипций для тестирования кольцевого буфера кэша KV.

📖 Читать полный источник: HN AI Agents

Исследование Mistral Voxtral Realtime 4B на чистом C для преобразования речи в текст

Ключевые особенности

Использование

👀 Смотрите также

Откат: Реализация на основе хуков утечек верификационных циклов Claude

Плагин OKed: OpenClaw запрашивает разрешение телефона перед деструктивными действиями

DeepSeek Reasonix: Нативный кодинг-агент с высоким кэшированием и низкой стоимостью

Attesor: Обратная разработка на основе ИИ Rosetta 2 для виртуальной машины Linux