6GB GPU上的会议摘要:qwen3.5:0.8B在57秒内完成,Granite 4 350M产生幻觉

VoiceFlow ist ein Open-Source (MIT) Diktier- und Transkriptionstool, das vollständig lokal läuft — der einzige Netzwerkaufruf ist ein optionaler LLM-Zusammenfassungsendpunkt (Ollama, llama.cpp, Groq, OpenAI). v1.6.0, heute veröffentlicht, fügt einen Meeting-Rekorder hinzu: Mikrofon + Systemaudio gemischt in eine Stereodatei, transkribiert von faster-whisper, dann zusammengefasst von einem beliebig konfigurierten Endpunkt.
Benchmark: Sub-1B-Modelle auf echten Meeting-Transkripten
Auf einem RTX 3060 Laptop 6GB (~4,3GB frei nach Whisper-Ladung, Ollama 0.23, Arch Linux), mit einem echten 4-minütigen Meeting-Transkript (~2900 Zeichen):
- qwen3.5:0.8B (873M, Q8_0) — standard num_ctx (4096) wurde von Denk-Token aufgebraucht. Fix:
Nach Fix: 1562-Zeichen strukturierte Zusammenfassung (TL;DR, Entscheidungen, Aktionspunkte, offene Fragen) in 57 Sekunden, mit 2,2GB VRAM. Funktioniert.FROM qwen3.5:0.8b PARAMETER num_ctx 16384 - Granite 4.0 350M — schneller (0,6–2,8s pro Zusammenfassung), richtig strukturierte Ausgabe, aber stark halluziniert: bei einem Transkript über die Übernahme von Bun durch Anthropic gab es „Anthropic's Übernahme durch Anthropic" zurück und erfand Binance. Bei einem anderen Meeting produzierte es ein Star-Trek-Brückenlogbuch („Raumschiff Cassiopeia"). Schlüsselwörter waren vorhanden, aber Beziehungen durcheinander.
Schlussfolgerung: qwen3.5:0.8B ist die funktionierende Untergrenze für lokale Meeting-Zusammenfassung; nichts unter 500M hat bisher kohärente Ausgabe auf echten Gesprächsdaten geliefert.
Kostenlose Cloud-Option: Groq's llama-3.3-70B
Groq's kostenloser Tarif auf llama-3.3-70B liefert ~2-Sekunden-Zusammenfassungen, Ausgabe „straffer" als das lokale 0.8B. Einziger Fehler war ein 4-Stunden-Transkript, das ihren Kontextfenster überschritt. Für die meisten Meeting-Längen ist es eine solide kostenlose Alternative.
Die offene Frage: Langkontext-Zusammenfassung bei niedrigem VRAM
Der Autor fragt die Community: für 1-2-Stunden-Transkripte (~30K–60K Token) auf einer 6-8GB GPU, was funktioniert? Optionen: breiterer Kontext (frisst VRAM), gechunkte Map-Reduce, oder ein anderes kleines Modell, das Struktur auf langen Eingaben hält — ohne 24GB zu benötigen.
VoiceFlow wird als einzelne .exe (Windows) oder .AppImage (Linux) ausgeliefert, gebaut mit Pyloid + React + faster-whisper + SQLite. CUDA Auto-Erkennung mit CPU-Fallback. Einrichtung (Modell, Mikrofon, Hotkey) dauert ~1 Minute.
📖 Read the full source: r/LocalLLaMA
👀 Siehe auch

TradesMCP: Open-Source-MCP-Server für die Überprüfung von Auftragnehmerlizenzen und Baudaten
TradesMCP ist ein Open-Source-Model-Context-Protocol-Server, der Claude Zugang zu echten Daten von Auftragnehmerlizenzen, Baugenehmigungen, Materialpreisen und Arbeitskosten bietet. Das Tool hat eine aktive Auftragnehmerlizenz in Kalifornien korrekt verifiziert, während ChatGPT falsche Informationen lieferte.

OpenClaw A2A Plugin: Direkte Agent-zu-Agent-Kommunikation über das Internet
Ein OpenClaw A2A-Plugin ermöglicht die direkte Übertragung von Dateien und Nachrichten zwischen OpenClaws und anderen Agenten über das Internet ohne Drittanbieterdienste wie WhatsApp oder E-Mail.

Kanari: KI-QA-Agent für automatisierte Tests basierend auf Codeänderungen
Canary ist ein KI-QA-Agent, der Codebasen liest, Pull-Request-Diffs analysiert und End-to-End-Tests für betroffene Benutzerabläufe generiert. Er verbindet sich mit Vorschauumgebungen, führt Tests durch und kommentiert die Ergebnisse direkt in PRs mit Aufzeichnungen.
ClaudeAI Brainstorming-Modus erhält visuellen Begleiter für Mockups und UI-Freigaben
Ein Benutzer entdeckt eine neue Funktion 'Visueller Begleiter' im Brainstorming-Modus von ClaudeAI, die Mockups auf einem lokalen Webserver bereitstellt und so ein Hin-und-Her bei UI-Anpassungen vor dem Bauen ermöglicht.