Offline-Sprache-zu-Text-Tool für macOS mit lokalem Whisper über MLX

Ein Entwickler hat whisper-dictate erstellt, ein macOS-Tool, das vollständig offline Spracherkennung in Text mit Echtzeit-Übersetzungsfunktionen ermöglicht. Das Tool verwendet OpenAIs Whisper, das lokal über MLX auf Apple Silicon läuft, ohne dass jemals Daten Ihren Computer verlassen.
Wie es funktioniert
Der Arbeitsablauf ist einfach: Halten Sie die Fn-Taste gedrückt, sprechen Sie und lassen Sie los. Der Text wird transkribiert und direkt dort eingefügt, wo Sie tippen. Das Tool funktioniert in Slack, VS Code, Browsern, E-Mails oder jedem anderen Textfeld. Ein schwebendes "Listening..."-Overlay bietet visuelles Feedback während der Aufnahme.
Technische Details
- Die Transkription dauert etwa 500 ms, nachdem Sie aufhören zu sprechen
- Verwendet Whisper, das lokal über MLX auf Apple Silicon läuft
- Das kleine Modell ist solide für den täglichen Gebrauch
- Das large-v3-turbo-Modell bietet nahezu perfekte Genauigkeit
- 100% offline Betrieb - keine Konten, Tokens oder Daten verlassen Ihren Computer
Übersetzungsfunktion
Whisper kann in Echtzeit übersetzen, ohne zusätzliche Modelle oder Übersetzungs-APIs. Die Übersetzung ist in den Decodierungsschritt von Whisper integriert. Zum Beispiel: Französisch sprechen gibt englischen Text aus. Sie stellen die Ausgabesprache auf Englisch ein und es übernimmt die Übersetzung nativ.
Einrichtung und Konfiguration
Beim Start fragt das Tool, welche Sprache Sie sprechen und in welche Sprache Sie die Ausgabe wünschen, was ein einfaches Umschalten zwischen reiner Transkription und Übersetzung ermöglicht. Die gesamte Einrichtung erfordert nach der Installation keine Internetverbindung.
Verfügbarkeit
Das Projekt ist auf GitHub als Open-Source verfügbar, damit andere es nutzen und an ihre Arbeitsabläufe anpassen können.
📖 Read the full source: r/LocalLLaMA
👀 Siehe auch

Jan fügt Ein-Klick-OpenClaw-Installation mit Jan-v3-Base-Modell-Integration hinzu
Jan unterstützt jetzt die Ein-Klick-Installation von OpenClaw mit direkter Integration in das Jan-v3-Basismodell, wobei alle Vorgänge lokal und privat auf Ihrem Computer bleiben.

Einführung von Roam-Code CLI: Eine schnellere, deterministische Alternative zur Code-Ent exploration.
Roam-Code CLI ersetzt die Erkundungsphase von Claude Code durch eine schnellere, deterministische Alternative, die Codebasen für eine verbesserte Effizienz indexiert.

GAN-Fähigkeit für Claude Code: Adversarial KI-Tool zur Ideenverfeinerung
Eine Claude Code-Fähigkeit namens /gan nutzt gegnerische KI-Rollen, um Ideen durch abwechselnde Diskriminator- und Generator-Phasen zu kritisieren und zu verbessern, mit Funktionen wie Intensitätsmodi, mehrsprachiger Ausgabe und erzwungener Rollenauswahl, die durch Selbstiteration entwickelt wurden.

OpenClaw Alexa Voice Proxy ermöglicht bidirektionale Sprachinteraktion
openclaw-alexa-voice ist ein Node.js-Proxy, der eine Alexa Custom Skill mit dem OpenClaw-Gateway verbindet und ein dreistufiges Antwortsystem für Sprachabfragen bietet. Er verarbeitet schnelle Antworten unter 1 Sekunde, Agentenantworten unter 12 Sekunden und zurückgestellte komplexe Abfragen, die asynchron innerhalb von 2 Minuten bearbeitet werden.