Claude Codeで構築：macOS音声認識アプリVextのケーススタディ

ある開発者が、Vext——Apple Neural Engine上のWhisperを使用して完全にデバイス上で動作するネイティブmacOS音声テキスト変換アプリ——を構築した経験を共有しました。クラウドもアカウントもサブスクリプションも不要です。このアプリはRustコアにSwift/SwiftUI UI、Core MLによる推論を使用し、Claude Codeを主要なコーディングパートナーとしています。

主な機能

どこでもホットキーを押す → 話す → 離す → カーソル位置にテキストが表示
60秒の音声を約400msで文字起こし（150倍のリアルタイム）
スマートなクリーンアップ：フィラーワードを除去、読みやすく発話を再構成
99以上の言語へのリアルタイム翻訳
話者分離と自動要約付き会議文字起こし
音声録音中の画面収録（スクリーンショットを自動添付）

Claude Codeの成功点

Apple Silicon上のWhisper： 量子化戦略、モデルチャンク、Core ML変換のメモリレイアウトを効率的にNeural Engineで動作させるための反復を支援。
ホットキーシステムのアーキテクチャ： 適切なアクセシビリティ権限を持つCGEventTapの使用を提案し、録音開始/停止とクリップボードインジェクション間の競合状態のデバッグを支援。
Rust ↔ Swift FFI： FFIバインディングを生成し、Cインターフェース層のメモリ安全性の問題をいくつか発見。