Исследование Mistral Voxtral Realtime 4B на чистом C для преобразования речи в текст

✍️ OpenClawRadar📅 Опубликовано: 13 февраля 2026 г.🔗 Source
Исследование Mistral Voxtral Realtime 4B на чистом C для преобразования речи в текст
Ad

Модель Mistral Voxtral Realtime 4B представляет собой модель распознавания речи, реализованную на чистом C, предлагая альтернативу без зависимостей для тех, кто полагается исключительно на стандартную библиотеку C. Репозиторий voxtral.c от antirez упрощает процесс вывода без необходимости в среде выполнения Python, наборе инструментов CUDA или любой другой внешней библиотеке во время вывода.

Ключевые особенности

  • Чистая C-реализация: Не нужны внешние зависимости, кроме стандартной библиотеки C, что делает ее подходящей для сред, где критически важна минимальная зависимость.
  • Платформо-зависимые бэкенды: Предоставляет две цели сборки: make mps для Apple Silicon, обеспечивающую более быструю обработку, и make blas для Intel Mac или Linux-систем с OpenBLAS, хотя с меньшей производительностью из-за необходимости конвертации с bf16 на fp32.
  • Обработка аудио: Использует кодировщик с разбиением на блоки и перекрывающимися окнами для ограничения использования памяти, независимо от длины входного потока. Также позволяет ввод аудио через stdin или микрофон на macOS, что улучшает ее универсальность для задач транскрипции в реальном времени или на основе файлов.
  • Потоковый C API: API vox_stream_t позволяет инкрементальный ввод аудио и выводит строковые токены по мере их генерации.
Ad

Использование

  • Скачайте модель (~8.9GB) с помощью ./download_model.sh.
  • Для транскрипции аудио из файла: ./voxtral -d voxtral-model -i audio.wav.
  • Живая транскрипция с микрофона на macOS: ./voxtral -d voxtral-model --from-mic.
  • Транскодирование и транскрипция с помощью ffmpeg: ffmpeg -i audio.mp3 -f s16le -ar 16000 -ac 1 - 2> /dev/null | ./voxtral -d voxtral-model --stdin.

Проект открыт для дальнейшего тестирования, так как в настоящее время он зависит от ограниченного числа образцов. Полная готовность к производству может потребовать дополнительной работы, особенно в обработке длинных транскрипций для тестирования кольцевого буфера кэша KV.

📖 Читать полный источник: HN AI Agents

Ad

👀 Смотрите также

Клод Код создал Treelo: бесплатный инструмент для транскрипции видео
Инструменты

Клод Код создал Treelo: бесплатный инструмент для транскрипции видео

Видеоредактор использовал Claude Code для создания Treelo — бесплатного инструмента, который транскрибирует видео- и аудиофайлы, удаляет слова-паразиты, позволяет размещать звуковые эффекты с точной привязкой к таймкодам и экспортирует SRT для Premiere или ASS для DaVinci Resolve.

OpenClawRadar
Bifrost AI Gateway: Инструмент с открытым исходным кодом устраняет пробелы в инфраструктуре ИИ
Инструменты

Bifrost AI Gateway: Инструмент с открытым исходным кодом устраняет пробелы в инфраструктуре ИИ

Bifrost — это открытый шлюз для LLM на основе Go, который обеспечивает автоматическое переключение между провайдерами, ограничения бюджета для отклонения запросов, аудит-логирование и хуки для оценки. Бенчмарки показывают, что он примерно в 50 раз быстрее, чем LiteLLM при высокой нагрузке.

OpenClawRadar
PhantomCrowd: Мультиагентный симулятор аудитории с использованием Claude Code
Инструменты

PhantomCrowd: Мультиагентный симулятор аудитории с использованием Claude Code

PhantomCrowd — это маркетинговая многокомпонентная система прогнозирования, которая моделирует реакцию реальной аудитории на контент перед его публикацией. Она генерирует 10–500 персонажей с уникальными демографическими данными и личностными характеристиками, каждый из которых независимо реагирует на контент, такой как рекламные тексты или посты в соцсетях.

OpenClawRadar
Сравнение 8 моделей ИИ для программирования на примере реализации реальной функции на TypeScript
Инструменты

Сравнение 8 моделей ИИ для программирования на примере реализации реальной функции на TypeScript

Разработчик протестировал 8 моделей ИИ для программирования на задаче реализации команды /rename в проекте Telegram-бота на TypeScript с открытым исходным кодом, оценивая их по стоимости, времени выполнения, корректности и техническому качеству. GPT-5.4 показал наивысший результат по корректности реализации, а GLM 5 предложил наилучшее соотношение цены и производительности.

OpenClawRadar