6GB GPUでのミーティング要約: qwen3.5:0.8Bは57秒で動作、Granite 4 350Mは幻覚を起こす

✍️ OpenClawRadar📅 公開日: May 19, 2026🔗 Source
6GB GPUでのミーティング要約: qwen3.5:0.8Bは57秒で動作、Granite 4 350Mは幻覚を起こす
Ad

VoiceFlowは、完全にローカルで動作するオープンソース(MIT)のディクテーションおよび文字起こしツールです。唯一のネットワーク呼び出しは、オプションのLLM要約エンドポイント(Ollama、llama.cpp、Groq、OpenAI)です。本日リリースされたv1.6.0では、会議レコーダーが追加されました。マイクとシステム音声をステレオファイルにミキシングし、faster-whisperで文字起こし、設定した任意のエンドポイントで要約します。

ベンチマーク: 実際の会議文字起こしでのサブ10億パラメータモデル

RTX 3060 Laptop 6GB(Whisperロード後約4.3GB空き、Ollama 0.23、Arch Linux)で、実際の4分間の会議文字起こし(約2900文字)を使用:

  • qwen3.5:0.8B(873M、Q8_0)— デフォルトのnum_ctx(4096)が思考トークンに消費されました。修正:
    FROM qwen3.5:0.8b
    PARAMETER num_ctx 16384
    修正後: 1562文字の構造化要約(TL;DR、決定事項、アクションアイテム、未解決質問)を57秒で生成、2.2GB VRAM使用。動作します。
  • Granite 4.0 350M — より高速(要約あたり0.6~2.8秒)、適切に構造化された出力ですが、ひどく幻覚を起こしました: AnthropicがBunを買収したという文字起こしに対して、「AnthropicによるAnthropicの買収」を返し、Binanceをでっち上げました。別の会議では、スタートレックのブリッジログ(「Starship Cassiopeia」)を生成しました。キーワードは存在していましたが、関係性がめちゃくちゃでした。

結論: qwen3.5:0.8Bがローカル会議要約の実用最低ラインです。5億パラメータ未満のモデルでは、実際の会話データに対して首尾一貫した出力を生成できたものはまだありません。

Ad

無料クラウドオプション: Groqのllama-3.3-70B

Groqのllama-3.3-70Bの無料ティアは、約2秒の要約を提供し、出力はローカルの0.8Bより「引き締まっています」。唯一の失敗例は4時間の文字起こしがコンテキストウィンドウを超えた場合です。ほとんどの会議時間において、堅実な無料代替案です。

未解決の課題: 低VRAMでの長文脈要約

著者はコミュニティに問いかけます: 6~8GBのGPUで1~2時間の文字起こし(約30K~60Kトークン)に対して、何が有効でしょうか? 選択肢: より広いコンテキスト(VRAMを消費)、チャンク化マップリデュース、または長い入力でも構造を保持する別の小型モデル(24GBは不要)。

VoiceFlowは、単一の.exe(Windows)または.AppImage(Linux)として出荷され、Pyloid + React + faster-whisper + SQLiteで構築されています。CUDA自動検出とCPUフォールバック対応。セットアップ(モデル、マイク、ホットキー)は約1分です。

📖 全文を読む: r/LocalLLaMA

Ad

👀 See Also

DoomVLM:ドゥームデスマッチにおける視覚言語モデルをテストするためのオープンソースツール
Tools

DoomVLM:ドゥームデスマッチにおける視覚言語モデルをテストするためのオープンソースツール

DoomVLMは現在、OpenAI互換APIを介してビジョン言語モデルがDoomをプレイするテストを可能にする単一のJupyterノートブックとしてオープンソース化されました。このツールは最大4つのモデルが競い合うデスマッチモードをサポートし、システムプロンプト、ツールの説明、サンプリングパラメータの完全な設定オプションを備えています。

OpenClawRadar
Manifest、MiniMaxトークンプランをM2.7モデルサポートで追加
Tools

Manifest、MiniMaxトークンプランをM2.7モデルサポートで追加

オープンソースのルーティングレイヤーであるManifestが、OpenClaw向けにMiniMaxのトークンプランをサポート開始しました。月額10ドルから利用可能です。新たに追加されたMiniMax M2.7モデルはOpenClawのワークフロー向けに特別に構築されており、MM-ClawBenchで62.7、SWE-Bench Proで56.2のスコアを達成しています。

OpenClawRadar
Microsoft VibeVoice: 60分ASRおよび90分TTSモデルがオープンソース化
Tools

Microsoft VibeVoice: 60分ASRおよび90分TTSモデルがオープンソース化

VibeVoiceは、マイクロソフトが公開したオープンソースの音声AIモデルファミリーで、ASR(60分のシングルパス、話者ダイアリゼーション、50以上の言語)とTTS(90分のマルチスピーカー、リアルタイムストリーミング)を提供します。7.5Hzの連続音声トークナイザーとネクストトークン拡散を採用しています。

OpenClawRadar
開発者は、予期せぬ切断後にClaude Codeセッション制限を監視するためのターミナルステータスバーを構築しました。
Tools

開発者は、予期せぬ切断後にClaude Codeセッション制限を監視するためのターミナルステータスバーを構築しました。

ある開発者が、警告なしにリファクタリングの途中で切断された後、Claude Codeのセッション使用状況をライブ表示するPythonターミナルステータスラインを作成しました。このツールはAPIキーを必要とせず、既存のセッションを利用します。

OpenClawRadar