RTX 3060 6GB : qwen3.5:0.8B résume une réunion en 57s

VoiceFlow est un outil open-source (MIT) de dictée et transcription qui fonctionne complètement en local — le seul appel réseau est un endpoint de résumé LLM optionnel (Ollama, llama.cpp, Groq, OpenAI). v1.6.0, publiée aujourd'hui, ajoute un enregistreur de réunions : micro + audio système mixés en un fichier stéréo, transcrits par faster-whisper, puis résumés par l'endpoint que vous configurez.

Benchmark : Modèles sub-1B sur de vrais transcriptions de réunions

Sur une RTX 3060 Laptop 6GB (~4,3 Go libres après chargement de Whisper, Ollama 0.23, Arch Linux), avec une transcription de réunion réelle de 4 minutes (~2900 caractères) :

qwen3.5:0.8B (873M, Q8_0) — num_ctx par défaut (4096) a été mangé par les tokens de réflexion. Correction :
```
FROM qwen3.5:0.8b
PARAMETER num_ctx 16384
```
Après correction : résumé structuré de 1562 caractères (TL;DR, décisions, actions, questions ouvertes) en 57 secondes, utilisant 2,2 Go de VRAM. Ça marche.
Granite 4.0 350M — plus rapide (0,6–2,8 s par résumé), sortie correctement structurée, mais hallucine gravement : sur une transcription à propos de l'acquisition de Bun par Anthropic, il a retourné « L'acquisition d'Anthropic par Anthropic » et inventé Binance. Sur une autre réunion, il a produit un journal de bord de l'Enterprise (« Starship Cassiopeia »). Les mots-clés étaient présents mais les relations mélangées.

Conclusion : qwen3.5:0.8B est le minimum viable pour le résumé de réunions en local ; aucun modèle sub-500M n'a produit de sortie cohérente sur des données conversationnelles réelles jusqu'à présent.

Option cloud gratuite : Groq's llama-3.3-70B

Le niveau gratuit de Groq sur llama-3.3-70B donne des résumés en ~2 secondes, avec une sortie « plus serrée » que le modèle local 0.8B. Le seul échec a été une transcription de 4 heures dépassant leur fenêtre de contexte. Pour la plupart des durées de réunion, c'est une alternative gratuite solide.

La question ouverte : Résumé long-contexte sur faible VRAM

L'auteur demande à la communauté : pour des transcriptions de 1 à 2 heures (~30K–60K tokens) sur un GPU de 6-8 Go, qu'est-ce qui fonctionne ? Options : contexte plus large (consommation de VRAM), map-reduce par lots, ou un autre petit modèle qui maintient la structure sur des entrées longues — sans nécessiter 24 Go.

VoiceFlow est livré sous forme d'un seul fichier .exe (Windows) ou .AppImage (Linux), construit avec Pyloid + React + faster-whisper + SQLite. Détection automatique CUDA avec fallback CPU. La configuration initiale (modèle, micro, touche de raccourci) prend ~1 minute.

📖 Lire la source complète : r/LocalLLaMA

Résumé de réunion sur un GPU 6 Go : qwen3.5:0.8B fonctionne en 57s, Granite 4 350M hallucine

Benchmark : Modèles sub-1B sur de vrais transcriptions de réunions

Option cloud gratuite : Groq's llama-3.3-70B

La question ouverte : Résumé long-contexte sur faible VRAM

👀 See Also

Détection des défaillances silencieuses des outils dans les agents de codage IA avec Vibeyard

cq : Un système de partage de connaissances local-first pour agents d'IA de codage

Les bugs du parseur de LM Studio perturbent l'appel d'outils et le raisonnement de Qwen3.5

Développeur a créé un tableau d'emplois IA/ML en utilisant Claude Code pour la conception et le SEO