6GB GPU Meeting-Summary: Qwen3.5 vs Granite 4 im Benchmark

VoiceFlow ist ein Open-Source (MIT) Diktier- und Transkriptionstool, das vollständig lokal läuft — der einzige Netzwerkaufruf ist ein optionaler LLM-Zusammenfassungsendpunkt (Ollama, llama.cpp, Groq, OpenAI). v1.6.0, heute veröffentlicht, fügt einen Meeting-Rekorder hinzu: Mikrofon + Systemaudio gemischt in eine Stereodatei, transkribiert von faster-whisper, dann zusammengefasst von einem beliebig konfigurierten Endpunkt.

Benchmark: Sub-1B-Modelle auf echten Meeting-Transkripten

Auf einem RTX 3060 Laptop 6GB (~4,3GB frei nach Whisper-Ladung, Ollama 0.23, Arch Linux), mit einem echten 4-minütigen Meeting-Transkript (~2900 Zeichen):

qwen3.5:0.8B (873M, Q8_0) — standard num_ctx (4096) wurde von Denk-Token aufgebraucht. Fix:
```
FROM qwen3.5:0.8b
PARAMETER num_ctx 16384
```
Nach Fix: 1562-Zeichen strukturierte Zusammenfassung (TL;DR, Entscheidungen, Aktionspunkte, offene Fragen) in 57 Sekunden, mit 2,2GB VRAM. Funktioniert.
Granite 4.0 350M — schneller (0,6–2,8s pro Zusammenfassung), richtig strukturierte Ausgabe, aber stark halluziniert: bei einem Transkript über die Übernahme von Bun durch Anthropic gab es „Anthropic's Übernahme durch Anthropic" zurück und erfand Binance. Bei einem anderen Meeting produzierte es ein Star-Trek-Brückenlogbuch („Raumschiff Cassiopeia"). Schlüsselwörter waren vorhanden, aber Beziehungen durcheinander.

Schlussfolgerung: qwen3.5:0.8B ist die funktionierende Untergrenze für lokale Meeting-Zusammenfassung; nichts unter 500M hat bisher kohärente Ausgabe auf echten Gesprächsdaten geliefert.

Kostenlose Cloud-Option: Groq's llama-3.3-70B

Groq's kostenloser Tarif auf llama-3.3-70B liefert ~2-Sekunden-Zusammenfassungen, Ausgabe „straffer" als das lokale 0.8B. Einziger Fehler war ein 4-Stunden-Transkript, das ihren Kontextfenster überschritt. Für die meisten Meeting-Längen ist es eine solide kostenlose Alternative.

Die offene Frage: Langkontext-Zusammenfassung bei niedrigem VRAM

Der Autor fragt die Community: für 1-2-Stunden-Transkripte (~30K–60K Token) auf einer 6-8GB GPU, was funktioniert? Optionen: breiterer Kontext (frisst VRAM), gechunkte Map-Reduce, oder ein anderes kleines Modell, das Struktur auf langen Eingaben hält — ohne 24GB zu benötigen.

VoiceFlow wird als einzelne .exe (Windows) oder .AppImage (Linux) ausgeliefert, gebaut mit Pyloid + React + faster-whisper + SQLite. CUDA Auto-Erkennung mit CPU-Fallback. Einrichtung (Modell, Mikrofon, Hotkey) dauert ~1 Minute.

📖 Read the full source: r/LocalLLaMA

6GB GPU上的会议摘要：qwen3.5:0.8B在57秒内完成，Granite 4 350M产生幻觉

Benchmark: Sub-1B-Modelle auf echten Meeting-Transkripten

Kostenlose Cloud-Option: Groq's llama-3.3-70B

Die offene Frage: Langkontext-Zusammenfassung bei niedrigem VRAM

👀 Siehe auch

MCP-Server verfolgt bekannte Fehler in Entwicklungstools, um LLM-Empfehlungen zu verbessern

Claude Code baute SaaS-Onboarding-Flow in 6 Stunden um vs. Entwicklerangebot von 3 Wochen, steigerte Aktivierung um 13 Punkte

ClawCall: OpenClaw-Fähigkeit für KI-Telefonanrufe mit Brückenmodus

"Transformation des Claude-Codes in ein autonomes Ingenieurteam"