Teste Local: Qwen 3.5 0.8B vs Granite 4 350M em GPU 6GB

O VoiceFlow é uma ferramenta open-source (MIT) de ditado e transcrição que roda completamente local — a única chamada de rede é um endpoint opcional de resumo via LLM (Ollama, llama.cpp, Groq, OpenAI). v1.6.0, lançada hoje, adiciona um gravador de reuniões: microfone + áudio do sistema mixados em um arquivo estéreo, transcrito pelo faster-whisper e resumido por qualquer endpoint que você configurar.

Benchmark: Modelos Sub-1B em Transcrições Reais de Reuniões

Em uma RTX 3060 Laptop 6GB (~4,3GB livres após o Whisper carregar, Ollama 0.23, Arch Linux), com uma transcrição real de 4 minutos (~2900 caracteres):

qwen3.5:0.8B (873M, Q8_0) — o num_ctx padrão (4096) foi consumido por tokens de raciocínio. Correção:
```
FROM qwen3.5:0.8b
PARAMETER num_ctx 16384
```
Após a correção: resumo estruturado de 1562 caracteres (TL;DR, decisões, itens de ação, perguntas em aberto) em 57 segundos, usando 2,2GB de VRAM. Funciona.
Granite 4.0 350M — mais rápido (0,6–2,8s por resumo), saída bem estruturada, mas alucina gravemente: em uma transcrição sobre a Anthropic adquirindo o Bun, retornou “Aquisição da Anthropic pela Anthropic” e inventou a Binance. Em outra reunião, produziu um registro de ponte da Star Trek (“Starship Cassiopeia”). Palavras-chave estavam presentes, mas as relações embaralhadas.

Conclusão: qwen3.5:0.8B é o mínimo funcional para sumarização local de reuniões; nenhum modelo sub-500M produziu saída coerente em dados conversacionais reais até agora.

Opção Gratuita na Nuvem: Groq llama-3.3-70B

O nível gratuito da Groq no llama-3.3-70B gera resumos em ~2 segundos, com saída "mais enxuta" que o 0.8B local. A única falha foi uma transcrição de 4 horas que excedeu a janela de contexto deles. Para a maioria das durações de reunião, é uma alternativa gratuita sólida.

A Pergunta em Aberto: Sumarização de Contexto Longo com Baixa VRAM

O autor pergunta à comunidade: para transcrições de 1-2 horas (~30K–60K tokens) em uma GPU de 6-8GB, o que funciona? Opções: contexto mais amplo (consumindo VRAM), map-reduce em partes ou um modelo pequeno diferente que mantenha a estrutura em entradas longas — sem precisar de 24GB.

O VoiceFlow é distribuído como um único .exe (Windows) ou .AppImage (Linux), construído com Pyloid + React + faster-whisper + SQLite. Detecção automática de CUDA com fallback para CPU. A configuração inicial (modelo, microfone, atalho) leva ~1 minuto.

📖 Leia a fonte completa: r/LocalLLaMA

Resumo de reuniões em uma GPU de 6 GB: qwen3.5:0.8B funciona em 57s, Granite 4 350M alucina

Benchmark: Modelos Sub-1B em Transcrições Reais de Reuniões

Opção Gratuita na Nuvem: Groq llama-3.3-70B

A Pergunta em Aberto: Sumarização de Contexto Longo com Baixa VRAM

👀 See Also

Fewshell: Um Copiloto SSH Auto-hospedado que Recusa Executar Comandos sem Aprovação Humana

Ouroboros Adiciona Modo de Entrevista de PM para Claude Code para Reduzir a Lacuna de Especificações

Pangolin: VPN de Identidade de Código Aberto como uma Alternativa ao ZTNA

Habilidade do Agente Wake para OpenClaw: Notificar o Discord Quando Tarefas Forem Concluídas