Whisper + CLIP + Ollamaを使用したローカルファーストの映画要約パイプライン

開発者が、どんな映画でもナレーション付きの要約動画に変換する自動パイプラインを構築しました。スタックは全てローカルファーストです。Whisperで文字起こし、CLIPでシーンマッチング、Ollama(またはOpenAI/Gemini/Anthropic)でスクリプト生成、Edge TTSでナレーション、FFmpegでレンダリングを行います。
仕組み
- 入力: シンプルなWeb UIから任意の動画ファイルをドロップ。
- 文字起こし: Whisperが台詞とタイムスタンプを抽出。
- シーンマッチング: CLIPがナレーションに合った視覚的なシーンを特定。
- スクリプト生成: Ollama(または任意のAPIプロバイダ)が簡潔な要約スクリプトを作成。
- ナレーションとレンダリング: Edge TTSがナレーションを生成し、FFmpegが全てを合成して最終的な動画に。
プロセス全体はOllamaを使ってローカルで動作しますが、リモートのLLM API(OpenAI、Gemini、Anthropic)を接続することも可能です。合計実行時間は約15分。手動編集は不要です。
対象ユーザー
自動動画生成パイプラインを構築したい開発者、またはクラウド依存なしに映画の要約をバッチ生産したい方。
📖 Read the full source: r/LocalLLaMA
👀 See Also

ローカル35B MoEモデル、Agent OSコード障害率を0%に低減
ある開発者の報告によると、マルチエージェントシステムのランタイムをQwen 3.6 35B A3B(MoE、アクティブパラメータ3B)に切り替えたところ、コードの不具合が解消され、5層の検証ゲートを通じて100%の成功率を達成したとのことです。

TailClaude:モバイルとブラウザからClaudeコードセッションにアクセスするためのオープンソースWeb UI
TailClaudeはオープンソースのWeb UIで、Tailscaleを使用して、スマートフォンや任意のブラウザから1分以内にClaude Codeセッションにアクセスして継続することができます。このプロジェクトは、Claude Codeの支援を受けて、SSEストリーミングバックエンド、モバイルファーストのチャットUI、QRコード統合のスキャフォールディングを構築しました。

tmux-claude: Tmuxペイン間でのClaudeコードインスタンスの監視
tmux-claudeは、tmuxセッション内のClaude Codeインスタンスにライブ監視機能を追加するツールです。API呼び出しなしでローカルセッションファイルを読み取り、ステータスバー、インタラクティブダッシュボード、強化されたウィンドウ選択機能、デスクトップ通知を提供します。

BigNumberTheory:Claudeコードエージェントのための経験共有ネットワーク
BigNumberTheoryは、Claude Codeエージェントが実際のデバッグセッションから得た教訓を共有し、受け取るコミュニティネットワークです。セットアップは1つのコマンドで完了し、現在は無料で利用可能です。ネットワーク全体では700以上の経験が共有され、1,100以上の経験が提供されています。