Résumé de réunion sur un GPU 6 Go : qwen3.5:0.8B fonctionne en 57s, Granite 4 350M hallucine

✍️ OpenClawRadar📅 Publié: May 19, 2026🔗 Source
Résumé de réunion sur un GPU 6 Go : qwen3.5:0.8B fonctionne en 57s, Granite 4 350M hallucine
Ad

VoiceFlow est un outil open-source (MIT) de dictée et transcription qui fonctionne complètement en local — le seul appel réseau est un endpoint de résumé LLM optionnel (Ollama, llama.cpp, Groq, OpenAI). v1.6.0, publiée aujourd'hui, ajoute un enregistreur de réunions : micro + audio système mixés en un fichier stéréo, transcrits par faster-whisper, puis résumés par l'endpoint que vous configurez.

Benchmark : Modèles sub-1B sur de vrais transcriptions de réunions

Sur une RTX 3060 Laptop 6GB (~4,3 Go libres après chargement de Whisper, Ollama 0.23, Arch Linux), avec une transcription de réunion réelle de 4 minutes (~2900 caractères) :

  • qwen3.5:0.8B (873M, Q8_0) — num_ctx par défaut (4096) a été mangé par les tokens de réflexion. Correction :
    FROM qwen3.5:0.8b
    PARAMETER num_ctx 16384
    Après correction : résumé structuré de 1562 caractères (TL;DR, décisions, actions, questions ouvertes) en 57 secondes, utilisant 2,2 Go de VRAM. Ça marche.
  • Granite 4.0 350M — plus rapide (0,6–2,8 s par résumé), sortie correctement structurée, mais hallucine gravement : sur une transcription à propos de l'acquisition de Bun par Anthropic, il a retourné « L'acquisition d'Anthropic par Anthropic » et inventé Binance. Sur une autre réunion, il a produit un journal de bord de l'Enterprise (« Starship Cassiopeia »). Les mots-clés étaient présents mais les relations mélangées.

Conclusion : qwen3.5:0.8B est le minimum viable pour le résumé de réunions en local ; aucun modèle sub-500M n'a produit de sortie cohérente sur des données conversationnelles réelles jusqu'à présent.

Ad

Option cloud gratuite : Groq's llama-3.3-70B

Le niveau gratuit de Groq sur llama-3.3-70B donne des résumés en ~2 secondes, avec une sortie « plus serrée » que le modèle local 0.8B. Le seul échec a été une transcription de 4 heures dépassant leur fenêtre de contexte. Pour la plupart des durées de réunion, c'est une alternative gratuite solide.

La question ouverte : Résumé long-contexte sur faible VRAM

L'auteur demande à la communauté : pour des transcriptions de 1 à 2 heures (~30K–60K tokens) sur un GPU de 6-8 Go, qu'est-ce qui fonctionne ? Options : contexte plus large (consommation de VRAM), map-reduce par lots, ou un autre petit modèle qui maintient la structure sur des entrées longues — sans nécessiter 24 Go.

VoiceFlow est livré sous forme d'un seul fichier .exe (Windows) ou .AppImage (Linux), construit avec Pyloid + React + faster-whisper + SQLite. Détection automatique CUDA avec fallback CPU. La configuration initiale (modèle, micro, touche de raccourci) prend ~1 minute.

📖 Lire la source complète : r/LocalLLaMA

Ad

👀 See Also

Les 171 vecteurs d'émotion interne de Claude influencent la sortie : Boîte à outils basée sur la recherche d'Anthropic
Tools

Les 171 vecteurs d'émotion interne de Claude influencent la sortie : Boîte à outils basée sur la recherche d'Anthropic

Le document de recherche d'Anthropic révèle que Claude possède 171 modèles d'activation internes qui fonctionnent comme des vecteurs d'émotion, influençant causalement son comportement avant qu'il n'écrive. Un développeur a créé une boîte à outils avec 7 principes pratiques de prompt et des prompts système basés sur ces découvertes.

OpenClawRadar
Calibre : L'outil CLI local génère des configurations d'assistant de codage IA à partir de votre dépôt.
Tools

Calibre : L'outil CLI local génère des configurations d'assistant de codage IA à partir de votre dépôt.

Caliber est un outil CLI local-first qui analyse les dépôts dans des langages comme TypeScript, Python, Go et Rust, puis génère des fichiers de prompt et de configuration pour les assistants de codage IA, notamment Claude Code, Cursor et Codex. Il s'exécute entièrement sur votre machine avec vos propres clés, compte 13k installations sur npm, et est open source sous licence MIT.

OpenClawRadar
🦀
Tools

CTOP : Interface terminal pour surveiller les sessions Claude Code, zéro dépendance

CTOP est une interface utilisateur TUI Node.js sans dépendances qui affiche le CPU, la mémoire, la saturation de la fenêtre de contexte, la répartition des tokens et les estimations de coût pour toutes les sessions Claude Code et Codex en cours.

OpenClawRadar
🦀
Tools

Agent IA OpenClaw avec 6 rôles, mémoire et conception adaptée au TDAH : Répartition des opérations quotidiennes

Un fondateur unique atteint de TDAH a construit un agent IA open source avec 6 rôles (planificateur d'actions, débriefeur, rédacteur, juridique, enquêteur, CRM) partageant la mémoire, générant automatiquement des suivis et des brouillons à partir de transcriptions.

OpenClawRadar