Исследование Mistral Voxtral Realtime 4B на чистом C для преобразования речи в текст

Модель Mistral Voxtral Realtime 4B представляет собой модель распознавания речи, реализованную на чистом C, предлагая альтернативу без зависимостей для тех, кто полагается исключительно на стандартную библиотеку C. Репозиторий voxtral.c от antirez упрощает процесс вывода без необходимости в среде выполнения Python, наборе инструментов CUDA или любой другой внешней библиотеке во время вывода.
Ключевые особенности
- Чистая C-реализация: Не нужны внешние зависимости, кроме стандартной библиотеки C, что делает ее подходящей для сред, где критически важна минимальная зависимость.
- Платформо-зависимые бэкенды: Предоставляет две цели сборки:
make mpsдля Apple Silicon, обеспечивающую более быструю обработку, иmake blasдля Intel Mac или Linux-систем с OpenBLAS, хотя с меньшей производительностью из-за необходимости конвертации с bf16 на fp32. - Обработка аудио: Использует кодировщик с разбиением на блоки и перекрывающимися окнами для ограничения использования памяти, независимо от длины входного потока. Также позволяет ввод аудио через stdin или микрофон на macOS, что улучшает ее универсальность для задач транскрипции в реальном времени или на основе файлов.
- Потоковый C API: API
vox_stream_tпозволяет инкрементальный ввод аудио и выводит строковые токены по мере их генерации.
Использование
- Скачайте модель (~8.9GB) с помощью
./download_model.sh. - Для транскрипции аудио из файла:
./voxtral -d voxtral-model -i audio.wav. - Живая транскрипция с микрофона на macOS:
./voxtral -d voxtral-model --from-mic. - Транскодирование и транскрипция с помощью
ffmpeg:ffmpeg -i audio.mp3 -f s16le -ar 16000 -ac 1 - 2> /dev/null | ./voxtral -d voxtral-model --stdin.
Проект открыт для дальнейшего тестирования, так как в настоящее время он зависит от ограниченного числа образцов. Полная готовность к производству может потребовать дополнительной работы, особенно в обработке длинных транскрипций для тестирования кольцевого буфера кэша KV.
📖 Читать полный источник: HN AI Agents
👀 Смотрите также

Клод Код создал Treelo: бесплатный инструмент для транскрипции видео
Видеоредактор использовал Claude Code для создания Treelo — бесплатного инструмента, который транскрибирует видео- и аудиофайлы, удаляет слова-паразиты, позволяет размещать звуковые эффекты с точной привязкой к таймкодам и экспортирует SRT для Premiere или ASS для DaVinci Resolve.

Bifrost AI Gateway: Инструмент с открытым исходным кодом устраняет пробелы в инфраструктуре ИИ
Bifrost — это открытый шлюз для LLM на основе Go, который обеспечивает автоматическое переключение между провайдерами, ограничения бюджета для отклонения запросов, аудит-логирование и хуки для оценки. Бенчмарки показывают, что он примерно в 50 раз быстрее, чем LiteLLM при высокой нагрузке.

PhantomCrowd: Мультиагентный симулятор аудитории с использованием Claude Code
PhantomCrowd — это маркетинговая многокомпонентная система прогнозирования, которая моделирует реакцию реальной аудитории на контент перед его публикацией. Она генерирует 10–500 персонажей с уникальными демографическими данными и личностными характеристиками, каждый из которых независимо реагирует на контент, такой как рекламные тексты или посты в соцсетях.

Сравнение 8 моделей ИИ для программирования на примере реализации реальной функции на TypeScript
Разработчик протестировал 8 моделей ИИ для программирования на задаче реализации команды /rename в проекте Telegram-бота на TypeScript с открытым исходным кодом, оценивая их по стоимости, времени выполнения, корректности и техническому качеству. GPT-5.4 показал наивысший результат по корректности реализации, а GLM 5 предложил наилучшее соотношение цены и производительности.