Resumen reuniones GPU 6GB: Qwen 3.5 vs Granite 4

VoiceFlow es una herramienta de dictado y transcripción de código abierto (MIT) que funciona completamente local; la única llamada de red es un endpoint opcional de resumen LLM (Ollama, llama.cpp, Groq, OpenAI). v1.6.0, lanzada hoy, añade un grabador de reuniones: micrófono + audio del sistema mezclados en un archivo estéreo, transcritos por faster-whisper y luego resumidos por cualquier endpoint que configures.

Evaluación comparativa: Modelos sub-1B en transcripciones de reuniones reales

En una RTX 3060 Laptop 6GB (~4.3GB libres después de cargar Whisper, Ollama 0.23, Arch Linux), con una transcripción real de 4 minutos (~2900 caracteres):

qwen3.5:0.8B (873M, Q8_0) — el num_ctx predeterminado (4096) fue consumido por los tokens de pensamiento. Solución:
```
FROM qwen3.5:0.8b
PARAMETER num_ctx 16384
```
Tras la corrección: resumen estructurado de 1562 caracteres (TL;DR, decisiones, elementos de acción, preguntas abiertas) en 57 segundos, usando 2.2GB de VRAM. Funciona.
Granite 4.0 350M — más rápido (0.6–2.8s por resumen), salida correctamente estructurada, pero alucinó gravemente: en una transcripción sobre la adquisición de Bun por parte de Anthropic, devolvió “La adquisición de Anthropic por parte de Anthropic” e inventó Binance. En otra reunión, produjo un registro de puente de Star Trek (“Starship Cassiopeia”). Las palabras clave estaban presentes, pero las relaciones estaban desordenadas.

Conclusión: qwen3.5:0.8B es el mínimo funcional para el resumen local de reuniones; ningún modelo sub-500M ha producido una salida coherente con datos conversacionales reales hasta ahora.

Opción gratuita en la nube: Groq's llama-3.3-70B

El nivel gratuito de Groq con llama-3.3-70B ofrece resúmenes en ~2 segundos, con una salida “más ajustada” que la del 0.8B local. El único fallo fue una transcripción de 4 horas que excedía su ventana de contexto. Para la mayoría de las duraciones de reuniones, es una sólida alternativa gratuita.

La pregunta abierta: Resumen de contexto largo en VRAM baja

El autor pregunta a la comunidad: para transcripciones de 1 a 2 horas (~30K–60K tokens) en una GPU de 6-8GB, ¿qué funciona? Opciones: contexto más amplio (consume VRAM), map-reduce por fragmentos, o un modelo pequeño diferente que mantenga la estructura en entradas largas, sin necesidad de 24GB.

VoiceFlow se distribuye como un solo .exe (Windows) o .AppImage (Linux), construido con Pyloid + React + faster-whisper + SQLite. Detección automática de CUDA con fallback a CPU. La configuración inicial (modelo, micrófono, tecla de acceso directo) toma aproximadamente 1 minuto.

📖 Leer la fuente original: r/LocalLLaMA

Resumen de reuniones en una GPU de 6GB: qwen3.5:0.8B funciona en 57s, Granite 4 350M alucina

Evaluación comparativa: Modelos sub-1B en transcripciones de reuniones reales

Opción gratuita en la nube: Groq's llama-3.3-70B

La pregunta abierta: Resumen de contexto largo en VRAM baja

👀 Ver también

Presentamos Swarmcore: un marco escalable de múltiples agentes en Python.

Resultados de Referencia: 6 Modelos de Bajo Costo vs. Claude Sonnet 4.6 para la Orquestación de OpenClaw

Título del Qwen Meetup: Function Calling Harness 2 aumenta el cumplimiento de CoT del 9.91% al 100% mediante esquemas estructurados

SkillOpt: Optimizando Archivos de Habilidades Markdown como Parámetros Entrenables para Agentes de IA