ローカルWhisperをMLX経由で利用するmacOS向けオフライン音声テキスト変換ツール

開発者がwhisper-dictateを作成しました。これはmacOS用ツールで、完全オフラインの音声からテキストへの書き起こしとリアルタイム翻訳機能を実現します。このツールはOpenAIのWhisperをApple Silicon上でMLXを介してローカルで実行し、データがマシンから流出することは一切ありません。
仕組み
ワークフローはシンプルです:fnキーを押しながら話し、離します。テキストは書き起こされ、入力中の場所に直接貼り付けられます。このツールはSlack、VS Code、ブラウザ、メール、その他のテキストフィールドで動作します。録音中は「Listening...」というフローティングオーバーレイが視覚的なフィードバックを提供します。
技術詳細
- 話し終わってから約500msで書き起こしが行われます
- Apple Silicon上でMLXを介してローカルで実行されるWhisperを使用
- 小規模モデルは日常使用に十分な性能
- large-v3-turboモデルはほぼ完璧な精度を提供
- 100%オフライン動作 - アカウント、トークン、データ流出なし
翻訳機能
Whisperは追加のモデルや翻訳APIなしでリアルタイム翻訳が可能です。翻訳はWhisperのデコードステップに組み込まれています。例えば、フランス語で話すと英語テキストが出力されます。出力言語を英語に設定すれば、ネイティブに翻訳を処理します。
セットアップと設定
起動時に、ツールは話す言語と出力したい言語を尋ね、純粋な書き起こしと翻訳の間で簡単に切り替えられるようにします。インストール後はインターネット接続を一切必要としません。
入手方法
このプロジェクトはGitHubでオープンソース化されており、他のユーザーが使用し、自分のワークフローに適応させることができます。
📖 Read the full source: r/LocalLLaMA
👀 See Also

OmniCoder-9Bのファインチューニングは、8GB VRAMシステム上でのエージェント型コーディングにおいて優れたパフォーマンスを示しています。
Redditユーザーが、OpusトレースでQwen3.5-9BをファインチューニングしたOmniCoder-9BをOpenCodeでテストし、8GB VRAMシステムで100kコンテキスト長のQ4_K_M GGUF量子化を使用して毎秒40トークン以上の速度を報告しました。

Claude Hindsight: Claudeコードセッション用可観測性ツール
Claude Hindsightは、Claude Code用のオープンソースの可観測性レイヤーで、ツール呼び出し、トークン、エラーを探索可能なダッシュボードに記録します。作成者はこれを利用して、733回のツール呼び出しと692.8Mのキャッシュトークンを伴う11時間の単一セッションでオープンソースプロジェクトをリファクタリングしました。

意味:LLMを活用したテストアサーションと構造化テキスト抽出のためのGo SDK
Senseは、主に2つの機能にClaudeを活用するGo SDKです。非決定論的な出力を平易な英語のアサーションでテスト評価し、リフレクションと強制ツール使用を通じて非構造化テキストから型付き構造体を抽出します。

AutoClawローカルランナーレビュー:簡単なセットアップ、クレジットコスト、アンインストールの問題
ユーザーがZai_orgのOpenClaw/AutoGLM用ローカルランナーであるAutoClawをテストしたところ、セットアップはスムーズだったものの、高いクレジット消費、タスクの失敗、アンインストール後のレジストリエントリや平文の認証情報を含む永続性に関する懸念が報告されました。