6GB GPUでミーティング要約比較: qwen3.5 vs Granite 4

VoiceFlowは、完全にローカルで動作するオープンソース（MIT）のディクテーションおよび文字起こしツールです。唯一のネットワーク呼び出しは、オプションのLLM要約エンドポイント（Ollama、llama.cpp、Groq、OpenAI）です。本日リリースされたv1.6.0では、会議レコーダーが追加されました。マイクとシステム音声をステレオファイルにミキシングし、faster-whisperで文字起こし、設定した任意のエンドポイントで要約します。

ベンチマーク: 実際の会議文字起こしでのサブ10億パラメータモデル

RTX 3060 Laptop 6GB（Whisperロード後約4.3GB空き、Ollama 0.23、Arch Linux）で、実際の4分間の会議文字起こし（約2900文字）を使用:

qwen3.5:0.8B（873M、Q8_0）— デフォルトのnum_ctx（4096）が思考トークンに消費されました。修正:
```
FROM qwen3.5:0.8b
PARAMETER num_ctx 16384
```
修正後: 1562文字の構造化要約（TL;DR、決定事項、アクションアイテム、未解決質問）を57秒で生成、2.2GB VRAM使用。動作します。
Granite 4.0 350M — より高速（要約あたり0.6～2.8秒）、適切に構造化された出力ですが、ひどく幻覚を起こしました: AnthropicがBunを買収したという文字起こしに対して、「AnthropicによるAnthropicの買収」を返し、Binanceをでっち上げました。別の会議では、スタートレックのブリッジログ（「Starship Cassiopeia」）を生成しました。キーワードは存在していましたが、関係性がめちゃくちゃでした。

結論: qwen3.5:0.8Bがローカル会議要約の実用最低ラインです。5億パラメータ未満のモデルでは、実際の会話データに対して首尾一貫した出力を生成できたものはまだありません。

無料クラウドオプション: Groqのllama-3.3-70B

Groqのllama-3.3-70Bの無料ティアは、約2秒の要約を提供し、出力はローカルの0.8Bより「引き締まっています」。唯一の失敗例は4時間の文字起こしがコンテキストウィンドウを超えた場合です。ほとんどの会議時間において、堅実な無料代替案です。

未解決の課題: 低VRAMでの長文脈要約

著者はコミュニティに問いかけます: 6～8GBのGPUで1～2時間の文字起こし（約30K～60Kトークン）に対して、何が有効でしょうか？選択肢: より広いコンテキスト（VRAMを消費）、チャンク化マップリデュース、または長い入力でも構造を保持する別の小型モデル（24GBは不要）。

VoiceFlowは、単一の.exe（Windows）または.AppImage（Linux）として出荷され、Pyloid + React + faster-whisper + SQLiteで構築されています。CUDA自動検出とCPUフォールバック対応。セットアップ（モデル、マイク、ホットキー）は約1分です。

📖 全文を読む: r/LocalLLaMA

6GB GPUでのミーティング要約: qwen3.5:0.8Bは57秒で動作、Granite 4 350Mは幻覚を起こす

ベンチマーク: 実際の会議文字起こしでのサブ10億パラメータモデル

無料クラウドオプション: Groqのllama-3.3-70B

未解決の課題: 低VRAMでの長文脈要約

👀 See Also

DoomVLM：ドゥームデスマッチにおける視覚言語モデルをテストするためのオープンソースツール

Manifest、MiniMaxトークンプランをM2.7モデルサポートで追加

Microsoft VibeVoice: 60分ASRおよび90分TTSモデルがオープンソース化

開発者は、予期せぬ切断後にClaude Codeセッション制限を監視するためのターミナルステータスバーを構築しました。