Voxtral Realtime 4B in Pure C: Sprach-zu-Text Implementierung

Das Mistral Voxtral Realtime 4B ist ein Spracherkennungsmodell, das in reinem C implementiert ist und eine unabhängige Alternative zu jenen bietet, die ausschließlich auf die C-Standardbibliothek angewiesen sind. Das Repository voxtral.c von antirez erleichtert die Inferenzpipeline, ohne dass zum Zeitpunkt der Inferenz eine Python-Laufzeitumgebung, das CUDA-Toolkit oder eine andere externe Bibliothek erforderlich ist.

Hauptmerkmale

Reine C-Implementierung: Es sind keine externen Abhängigkeiten über die C-Standardbibliothek hinaus erforderlich, was es geeignet für Umgebungen macht, in denen minimale Abhängigkeiten entscheidend sind.
Plattform-spezifische Backends: Bietet zwei Make-Ziele: make mps für Apple Silicon, das schnellere Verarbeitung ermöglicht, und make blas für Intel-Mac- oder Linux-Systeme, die mit OpenBLAS ausgestattet sind, allerdings mit langsamerer Leistung aufgrund der Konvertierung von bf16 zu fp32.
Audioverarbeitung: Nutzt einen chunkierten Encoder mit überlappenden Fenstern, um den Speicherverbrauch unabhängig von der Eingabelänge zu begrenzen. Es ermöglicht auch die Audioeingabe über stdin oder Mikrofon auf macOS und erhöht so die Vielseitigkeit für Live- oder dateibasiertes Transkribieren.
Streaming C API: Die API vox_stream_t erlaubt inkrementelles Füttern von Audio und gibt Token-Strings aus, sobald sie generiert werden.

Verwendung

Modell herunterladen (~8.9GB) mit ./download_model.sh.
Für die Audio-Transkription aus einer Datei: ./voxtral -d voxtral-model -i audio.wav.
Live-Transkription von einem Mikrofon auf macOS: ./voxtral -d voxtral-model --from-mic.
Transkodierung und Transkription mit ffmpeg: ffmpeg -i audio.mp3 -f s16le -ar 16000 -ac 1 - 2> /dev/null | ./voxtral -d voxtral-model --stdin.

Das Projekt ist offen für weitere Tests, da es derzeit auf einer begrenzten Anzahl von Beispielen basiert. Eine vollständige Produktionsbereitschaft könnte mehr Arbeit erfordern, insbesondere im Umgang mit langen Transkriptionen, um den zirkulären Puffer des KV-Cache zu testen.

📖 Die vollständige Quelle lesen: HN AI Agents

"Erforschung von Mistral Voxtral Realtime 4B in Pure C für Sprach-zu-Text"

Hauptmerkmale

Verwendung

👀 Siehe auch

Chromeflow: Chrome-Erweiterung automatisiert Web-UI-Aufgaben für Claude

Marmy: Eine selbst gehostete Mobile App zur Verwaltung mehrerer KI-Codierungsagenten-Sitzungen

Claude Code Mastery: Open-Source-Konfigurationssystem fügt persistenter Speicher und kuratierte Fähigkeiten zur Claude Code CLI hinzu

PgAdmin 4 9.13 fügt dem Abfragetool einen KI-Assistenten-Bereich hinzu