Resumen de reuniones en una GPU de 6GB: qwen3.5:0.8B funciona en 57s, Granite 4 350M alucina

VoiceFlow es una herramienta de dictado y transcripción de código abierto (MIT) que funciona completamente local; la única llamada de red es un endpoint opcional de resumen LLM (Ollama, llama.cpp, Groq, OpenAI). v1.6.0, lanzada hoy, añade un grabador de reuniones: micrófono + audio del sistema mezclados en un archivo estéreo, transcritos por faster-whisper y luego resumidos por cualquier endpoint que configures.
Evaluación comparativa: Modelos sub-1B en transcripciones de reuniones reales
En una RTX 3060 Laptop 6GB (~4.3GB libres después de cargar Whisper, Ollama 0.23, Arch Linux), con una transcripción real de 4 minutos (~2900 caracteres):
- qwen3.5:0.8B (873M, Q8_0) — el num_ctx predeterminado (4096) fue consumido por los tokens de pensamiento. Solución:
Tras la corrección: resumen estructurado de 1562 caracteres (TL;DR, decisiones, elementos de acción, preguntas abiertas) en 57 segundos, usando 2.2GB de VRAM. Funciona.FROM qwen3.5:0.8b PARAMETER num_ctx 16384 - Granite 4.0 350M — más rápido (0.6–2.8s por resumen), salida correctamente estructurada, pero alucinó gravemente: en una transcripción sobre la adquisición de Bun por parte de Anthropic, devolvió “La adquisición de Anthropic por parte de Anthropic” e inventó Binance. En otra reunión, produjo un registro de puente de Star Trek (“Starship Cassiopeia”). Las palabras clave estaban presentes, pero las relaciones estaban desordenadas.
Conclusión: qwen3.5:0.8B es el mínimo funcional para el resumen local de reuniones; ningún modelo sub-500M ha producido una salida coherente con datos conversacionales reales hasta ahora.
Opción gratuita en la nube: Groq's llama-3.3-70B
El nivel gratuito de Groq con llama-3.3-70B ofrece resúmenes en ~2 segundos, con una salida “más ajustada” que la del 0.8B local. El único fallo fue una transcripción de 4 horas que excedía su ventana de contexto. Para la mayoría de las duraciones de reuniones, es una sólida alternativa gratuita.
La pregunta abierta: Resumen de contexto largo en VRAM baja
El autor pregunta a la comunidad: para transcripciones de 1 a 2 horas (~30K–60K tokens) en una GPU de 6-8GB, ¿qué funciona? Opciones: contexto más amplio (consume VRAM), map-reduce por fragmentos, o un modelo pequeño diferente que mantenga la estructura en entradas largas, sin necesidad de 24GB.
VoiceFlow se distribuye como un solo .exe (Windows) o .AppImage (Linux), construido con Pyloid + React + faster-whisper + SQLite. Detección automática de CUDA con fallback a CPU. La configuración inicial (modelo, micrófono, tecla de acceso directo) toma aproximadamente 1 minuto.
📖 Leer la fuente original: r/LocalLLaMA
👀 Ver también

Maestro v1.5.0 añade soporte para Claude Code para la orquestación de múltiples agentes.
Maestro v1.5.0, una plataforma de orquestación de múltiples agentes de código abierto, ahora se ejecuta como un complemento nativo en Claude Code además de Gemini CLI. La actualización incluye una planificación de diseño más profunda, una columna vertebral de orquestación de 42 pasos, aplicación de capacidades de agentes y endurecimiento de seguridad.

Brain-MCP Documentos de Desarrollo Herramientas para Claude IA en Lugar de Humanos
Un desarrollador que mantiene el servidor Brain-MCP, que le da memoria a Claude entre conversaciones, descubrió que el principal consumidor de su documentación era Claude en lugar de lectores humanos en GitHub. Agregó una sección "Para Asistentes de IA" en la parte superior del README que contiene instrucciones de comportamiento en lugar de solo descripciones de herramientas.

Desarrollador Crea un Port Nativo de tmux para Windows Usando Claude Code Sin Conocer C
Un desarrollador creó tmux-win, un multiplexador nativo para Windows que utiliza Claude Code para manejar la API Win32 y la implementación de conpty, a pesar de no conocer C. La herramienta incluye divisiones verticales/horizontales, sesiones desacoplables y rendimiento nativo sin sobrecarga de máquina virtual.

Habilidades de Marketing de Corey Haines para Agentes de IA
Se ha añadido a OpenClaw un conjunto de 25 habilidades de marketing para agentes de IA, que abarcan optimización de conversión, redacción publicitaria, análisis e ingeniería de crecimiento. Se destaca que la habilidad de optimización de conversión es especialmente eficaz en configuraciones multiagente.