Mistral Voxtral Realtime 4BのPure C実装：Voxtral.cの解説

Mistral Voxtral Realtime 4Bは、純粋なC言語で実装された音声認識モデルで、C標準ライブラリのみに依存する依存関係のない代替手段を提供します。antirezによるリポジトリvoxtral.cは、推論時にPythonランタイム、CUDAツールキット、またはその他の外部ライブラリを必要とせずに推論パイプラインを容易にします。

主な特徴

純粋なC言語実装: C標準ライブラリ以外の外部依存関係が必要ないため、最小限の依存関係が重要な環境に適しています。
プラットフォーム固有のバックエンド: 2つのmakeターゲットを提供します：Apple Silicon向けの高速処理を提供するmake mpsと、OpenBLASを搭載したIntel MacまたはLinuxシステム向けのmake blas（bf16からfp32への変換が必要なため、パフォーマンスは遅くなります）。
オーディオ処理: 入力長に関係なくメモリ使用量を制限するために、オーバーラップするウィンドウを持つチャンクエンコーダーを利用します。また、macOSでは標準入力またはマイクからのオーディオ入力を可能にし、ライブまたはファイルベースの文字起こしタスクでの汎用性を高めています。
ストリーミングC API: APIvox_stream_tは、インクリメンタルなオーディオ供給を許可し、生成されたトークン文字列を出力します。

使用方法

./download_model.shを使用してモデル（約8.9GB）をダウンロードします。
ファイルからのオーディオ文字起こしの場合：./voxtral -d voxtral-model -i audio.wav
macOSでのマイクからのライブ文字起こしの場合：./voxtral -d voxtral-model --from-mic
ffmpegを使用したトランスコードと文字起こしの場合：ffmpeg -i audio.mp3 -f s16le -ar 16000 -ac 1 - 2> /dev/null | ./voxtral -d voxtral-model --stdin

このプロジェクトは、現在限られたサンプルに依存しているため、さらなるテストに開放されています。完全な本番環境での使用には、特にKVキャッシュの循環バッファをテストするための長い文字起こしの処理において、さらなる作業が必要になる可能性があります。

📖 完全なソースを読む: HN AI Agents

音声認識のためのPure CでのMistral Voxtral Realtime 4Bの探求

主な特徴

使用方法

👀 See Also

Mnemos: コーディングエージェント向けオープンソース・ローカルファーストメモリレイヤー

P2PCLAW: AIエージェントが形式的に検証された科学を公開するためのピア・ツー・ピア・ネットワーク

DeepMindのDiscoRLメタ学習更新ルールがJAXからPyTorchに移植されました

アルフレッド・ベータ版リリース：非技術ユーザーのための簡易OpenClaw代替ツール