Outil de Reconnaissance Vocale Hors Ligne pour macOS Utilisant Whisper Local via MLX

Un développeur a créé whisper-dictate, un outil macOS qui permet une transcription voix-texte entièrement hors ligne avec des capacités de traduction en temps réel. L'outil utilise Whisper d'OpenAI fonctionnant localement via MLX sur Apple Silicon, sans que vos données ne quittent jamais votre machine.
Fonctionnement
Le flux de travail est simple : maintenez la touche fn, parlez, puis relâchez. Le texte est transcrit et collé directement là où vous tapez. L'outil fonctionne dans Slack, VS Code, les navigateurs, les e-mails ou tout autre champ de texte. Une superposition flottante "Écoute..." fournit un retour visuel pendant l'enregistrement.
Détails techniques
- La transcription prend environ 500 ms après avoir arrêté de parler
- Utilise Whisper fonctionnant localement via MLX sur Apple Silicon
- Le petit modèle est solide pour un usage quotidien
- Le modèle large-v3-turbo offre une précision quasi parfaite
- Fonctionnement 100% hors ligne - aucun compte, jeton ou donnée ne quitte votre machine
Fonction de traduction
Whisper peut traduire à la volée sans modèles supplémentaires ni API de traduction. La traduction est intégrée à l'étape de décodage de Whisper. Par exemple, parler en français produit du texte en anglais. Vous définissez la langue de sortie sur l'anglais, et il gère la traduction nativement.
Installation et configuration
Au lancement, l'outil demande dans quelle langue vous allez parler et ce que vous voulez comme sortie, permettant de basculer facilement entre la transcription pure et la traduction. L'ensemble de l'installation ne nécessite aucune connexion Internet une fois installé.
Disponibilité
Le projet est open-source sur GitHub pour que d'autres puissent l'utiliser et l'adapter à leurs flux de travail.
📖 Read the full source: r/LocalLLaMA
👀 See Also

Pourquoi Codex reste plus performant que Claude Code pour les monolithes Python complexes
Un développeur senior compare Codex et Claude Code sur un monolithe Python en production avec des couches architecturales mixtes. Codex l'emporte pour le travail back-end grâce à une meilleure planification, la réutilisation du code et le respect de l'ingénierie de harnais.

Système Multi-Agent pour l'Analyse Concurrentielle Approfondie avec Claude
Un développeur a créé un système d'agents à trois vagues qui va au-delà des simples listes de concurrents pour extraire des informations sur les prix, les tendances de sentiment des clients et les signaux stratégiques grâce à une recherche structurée multi-sources.

PayClaw lance un bac à sable pour serveur MCP de paiement avec des cartes Visa virtuelles
PayClaw a lancé un environnement sandbox pour son serveur MCP de paiement, proposant des cartes Visa virtuelles verrouillées par marchand avec une expiration de 15 minutes, une approbation humaine par transaction protégée par MFA, et une déclaration d'intention avant l'émission de la carte. Les cartes de production sont prévues pour le 4 mars.

LLM Circuit Finder : Dupliquez 3 couches pour renforcer le raisonnement sans entraînement
Un nouvel outil identifie des 'circuits de raisonnement' dans les modèles de transformateurs - des blocs contigus de 3-4 couches qui agissent comme des unités cognitives indivisibles. Dupliquer ces blocs (couches 12-14 dans Devstral-24B) améliore le raisonnement déductif de 0,22 à 0,76 sur les benchmarks BBH sans modification des poids ni entraînement.