Resumo de reuniões em uma GPU de 6 GB: qwen3.5:0.8B funciona em 57s, Granite 4 350M alucina

✍️ OpenClawRadar📅 Publicado: May 19, 2026🔗 Source
Resumo de reuniões em uma GPU de 6 GB: qwen3.5:0.8B funciona em 57s, Granite 4 350M alucina
Ad

O VoiceFlow é uma ferramenta open-source (MIT) de ditado e transcrição que roda completamente local — a única chamada de rede é um endpoint opcional de resumo via LLM (Ollama, llama.cpp, Groq, OpenAI). v1.6.0, lançada hoje, adiciona um gravador de reuniões: microfone + áudio do sistema mixados em um arquivo estéreo, transcrito pelo faster-whisper e resumido por qualquer endpoint que você configurar.

Benchmark: Modelos Sub-1B em Transcrições Reais de Reuniões

Em uma RTX 3060 Laptop 6GB (~4,3GB livres após o Whisper carregar, Ollama 0.23, Arch Linux), com uma transcrição real de 4 minutos (~2900 caracteres):

  • qwen3.5:0.8B (873M, Q8_0) — o num_ctx padrão (4096) foi consumido por tokens de raciocínio. Correção:
    FROM qwen3.5:0.8b
    PARAMETER num_ctx 16384
    Após a correção: resumo estruturado de 1562 caracteres (TL;DR, decisões, itens de ação, perguntas em aberto) em 57 segundos, usando 2,2GB de VRAM. Funciona.
  • Granite 4.0 350M — mais rápido (0,6–2,8s por resumo), saída bem estruturada, mas alucina gravemente: em uma transcrição sobre a Anthropic adquirindo o Bun, retornou “Aquisição da Anthropic pela Anthropic” e inventou a Binance. Em outra reunião, produziu um registro de ponte da Star Trek (“Starship Cassiopeia”). Palavras-chave estavam presentes, mas as relações embaralhadas.

Conclusão: qwen3.5:0.8B é o mínimo funcional para sumarização local de reuniões; nenhum modelo sub-500M produziu saída coerente em dados conversacionais reais até agora.

Ad

Opção Gratuita na Nuvem: Groq llama-3.3-70B

O nível gratuito da Groq no llama-3.3-70B gera resumos em ~2 segundos, com saída "mais enxuta" que o 0.8B local. A única falha foi uma transcrição de 4 horas que excedeu a janela de contexto deles. Para a maioria das durações de reunião, é uma alternativa gratuita sólida.

A Pergunta em Aberto: Sumarização de Contexto Longo com Baixa VRAM

O autor pergunta à comunidade: para transcrições de 1-2 horas (~30K–60K tokens) em uma GPU de 6-8GB, o que funciona? Opções: contexto mais amplo (consumindo VRAM), map-reduce em partes ou um modelo pequeno diferente que mantenha a estrutura em entradas longas — sem precisar de 24GB.

O VoiceFlow é distribuído como um único .exe (Windows) ou .AppImage (Linux), construído com Pyloid + React + faster-whisper + SQLite. Detecção automática de CUDA com fallback para CPU. A configuração inicial (modelo, microfone, atalho) leva ~1 minuto.

📖 Leia a fonte completa: r/LocalLLaMA

Ad

👀 See Also

Configurações Ephemeral OpenClaw com isolamento de rede e desmontagem automática
Tools

Configurações Ephemeral OpenClaw com isolamento de rede e desmontagem automática

Uma configuração que inicializa o OpenClaw dentro de uma VM efêmera com uma lista de permissões de saída de rede, injeta chaves de API em armazenamento baseado em RAM e inclui uma autodestruição de 2 horas. Todas as chamadas de LLM são registradas no SQLite para reprodução.

OpenClawRadar
Sistema de Memória MCP Local com Consolidação para Conversas de IA
Tools

Sistema de Memória MCP Local com Consolidação para Conversas de IA

Um desenvolvedor criou um servidor MCP que fornece memória local persistente para clientes de IA, usando Qwen 2.5-7B para consolidar conversas em documentos de conhecimento estruturados a cada 6 horas. O sistema roda completamente no seu hardware com deduplicação semântica, pontuação adaptativa e busca vetorial FAISS.

OpenClawRadar
OpenClaw PARA Habilidade Organizacional Classifica Automaticamente Arquivos em Projetos, Áreas, Recursos, Arquivos
Tools

OpenClaw PARA Habilidade Organizacional Classifica Automaticamente Arquivos em Projetos, Áreas, Recursos, Arquivos

Um desenvolvedor criou uma habilidade OpenClaw que aplica o método PARA (Projetos, Áreas, Recursos, Arquivos) para organizar arquivos, classificando automaticamente o conteúdo em vez de despejar tudo no diretório raiz.

OpenClawRadar
nex-life-logger: Rastreador de Atividades Locais para Agentes OpenClaw
Tools

nex-life-logger: Rastreador de Atividades Locais para Agentes OpenClaw

nex-life-logger é um rastreador de atividades em segundo plano que roda localmente na sua máquina, dando aos agentes OpenClaw memória das suas atividades no computador. Ele rastreia histórico do navegador, janelas ativas e transcrições do YouTube, armazenando tudo em um banco de dados SQLite local sem transmissão de dados para a nuvem.

OpenClawRadar