音声認識のためのPure CでのMistral Voxtral Realtime 4Bの探求

Mistral Voxtral Realtime 4Bは、純粋なC言語で実装された音声認識モデルで、C標準ライブラリのみに依存する依存関係のない代替手段を提供します。antirezによるリポジトリvoxtral.cは、推論時にPythonランタイム、CUDAツールキット、またはその他の外部ライブラリを必要とせずに推論パイプラインを容易にします。
主な特徴
- 純粋なC言語実装: C標準ライブラリ以外の外部依存関係が必要ないため、最小限の依存関係が重要な環境に適しています。
- プラットフォーム固有のバックエンド: 2つのmakeターゲットを提供します:Apple Silicon向けの高速処理を提供する
make mpsと、OpenBLASを搭載したIntel MacまたはLinuxシステム向けのmake blas(bf16からfp32への変換が必要なため、パフォーマンスは遅くなります)。 - オーディオ処理: 入力長に関係なくメモリ使用量を制限するために、オーバーラップするウィンドウを持つチャンクエンコーダーを利用します。また、macOSでは標準入力またはマイクからのオーディオ入力を可能にし、ライブまたはファイルベースの文字起こしタスクでの汎用性を高めています。
- ストリーミングC API: API
vox_stream_tは、インクリメンタルなオーディオ供給を許可し、生成されたトークン文字列を出力します。
使用方法
./download_model.shを使用してモデル(約8.9GB)をダウンロードします。- ファイルからのオーディオ文字起こしの場合:
./voxtral -d voxtral-model -i audio.wav - macOSでのマイクからのライブ文字起こしの場合:
./voxtral -d voxtral-model --from-mic ffmpegを使用したトランスコードと文字起こしの場合:ffmpeg -i audio.mp3 -f s16le -ar 16000 -ac 1 - 2> /dev/null | ./voxtral -d voxtral-model --stdin
このプロジェクトは、現在限られたサンプルに依存しているため、さらなるテストに開放されています。完全な本番環境での使用には、特にKVキャッシュの循環バッファをテストするための長い文字起こしの処理において、さらなる作業が必要になる可能性があります。
📖 完全なソースを読む: HN AI Agents
👀 See Also

NEXUS: OpenClawのためのオープンソースエージェント調整レイヤー
NEXUSは、AIエージェントが互いを発見し、タスクを委任し、マイクロペイメントを処理できるようにする、OpenClaw上に構築された調整レイヤーです。エージェントレジストリ、能力ベースの発見、信頼スコアを含み、GoogleのA2AプロトコルとAnthropicのMCPを使用しています。

OpenClawスキルパック:Ubuntu上での真の自律運用のための2,500以上のコマンドセット
OpenClaw AIエージェント向けの新スキルパッケージは、Ubuntu環境でのDocker管理、ネットワーク設定、CVE対応、システム自動化など、DevOps操作のための2,500以上の実行スキルを導入します。
マルチエージェントメモリ:AIエージェント向けオープンソース共有メモリシステム
Multi-Agent Memoryは、異なるマシン、ツール、フレームワーク間でAIエージェントが共有メモリシステムを利用できるオープンソースプロジェクトです。特定の動作を持つ4種類のメモリタイプをサポートし、認証情報のスクラビング、エージェントの分離、LLM統合などの機能を備えています。

Qure: 記録されたブラウザ操作フローからE2Eテストを生成するデスクトップアプリ
QureはJetBrainsが開発したデスクトップアプリケーション(現在はクローズドベータ版)で、内蔵ブラウザで記録した操作からエンドツーエンドのWebテストコードを生成します。開発者はAIエージェントにテキストでテストフローを説明する代わりに、製品を操作して手動QAシナリオを記録し、AIが既存のコードベースに合った動作するテストコードを作成します。