Resumen de reuniones en una GPU de 6GB: qwen3.5:0.8B funciona en 57s, Granite 4 350M alucina

✍️ OpenClawRadar📅 Publicado: 19 de mayo de 2026🔗 Source
Resumen de reuniones en una GPU de 6GB: qwen3.5:0.8B funciona en 57s, Granite 4 350M alucina
Ad

VoiceFlow es una herramienta de dictado y transcripción de código abierto (MIT) que funciona completamente local; la única llamada de red es un endpoint opcional de resumen LLM (Ollama, llama.cpp, Groq, OpenAI). v1.6.0, lanzada hoy, añade un grabador de reuniones: micrófono + audio del sistema mezclados en un archivo estéreo, transcritos por faster-whisper y luego resumidos por cualquier endpoint que configures.

Evaluación comparativa: Modelos sub-1B en transcripciones de reuniones reales

En una RTX 3060 Laptop 6GB (~4.3GB libres después de cargar Whisper, Ollama 0.23, Arch Linux), con una transcripción real de 4 minutos (~2900 caracteres):

  • qwen3.5:0.8B (873M, Q8_0) — el num_ctx predeterminado (4096) fue consumido por los tokens de pensamiento. Solución:
    FROM qwen3.5:0.8b
    PARAMETER num_ctx 16384
    Tras la corrección: resumen estructurado de 1562 caracteres (TL;DR, decisiones, elementos de acción, preguntas abiertas) en 57 segundos, usando 2.2GB de VRAM. Funciona.
  • Granite 4.0 350M — más rápido (0.6–2.8s por resumen), salida correctamente estructurada, pero alucinó gravemente: en una transcripción sobre la adquisición de Bun por parte de Anthropic, devolvió “La adquisición de Anthropic por parte de Anthropic” e inventó Binance. En otra reunión, produjo un registro de puente de Star Trek (“Starship Cassiopeia”). Las palabras clave estaban presentes, pero las relaciones estaban desordenadas.

Conclusión: qwen3.5:0.8B es el mínimo funcional para el resumen local de reuniones; ningún modelo sub-500M ha producido una salida coherente con datos conversacionales reales hasta ahora.

Ad

Opción gratuita en la nube: Groq's llama-3.3-70B

El nivel gratuito de Groq con llama-3.3-70B ofrece resúmenes en ~2 segundos, con una salida “más ajustada” que la del 0.8B local. El único fallo fue una transcripción de 4 horas que excedía su ventana de contexto. Para la mayoría de las duraciones de reuniones, es una sólida alternativa gratuita.

La pregunta abierta: Resumen de contexto largo en VRAM baja

El autor pregunta a la comunidad: para transcripciones de 1 a 2 horas (~30K–60K tokens) en una GPU de 6-8GB, ¿qué funciona? Opciones: contexto más amplio (consume VRAM), map-reduce por fragmentos, o un modelo pequeño diferente que mantenga la estructura en entradas largas, sin necesidad de 24GB.

VoiceFlow se distribuye como un solo .exe (Windows) o .AppImage (Linux), construido con Pyloid + React + faster-whisper + SQLite. Detección automática de CUDA con fallback a CPU. La configuración inicial (modelo, micrófono, tecla de acceso directo) toma aproximadamente 1 minuto.

📖 Leer la fuente original: r/LocalLLaMA

Ad

👀 Ver también

Maestro v1.5.0 añade soporte para Claude Code para la orquestación de múltiples agentes.
Herramientas

Maestro v1.5.0 añade soporte para Claude Code para la orquestación de múltiples agentes.

Maestro v1.5.0, una plataforma de orquestación de múltiples agentes de código abierto, ahora se ejecuta como un complemento nativo en Claude Code además de Gemini CLI. La actualización incluye una planificación de diseño más profunda, una columna vertebral de orquestación de 42 pasos, aplicación de capacidades de agentes y endurecimiento de seguridad.

OpenClawRadar
Brain-MCP Documentos de Desarrollo Herramientas para Claude IA en Lugar de Humanos
Herramientas

Brain-MCP Documentos de Desarrollo Herramientas para Claude IA en Lugar de Humanos

Un desarrollador que mantiene el servidor Brain-MCP, que le da memoria a Claude entre conversaciones, descubrió que el principal consumidor de su documentación era Claude en lugar de lectores humanos en GitHub. Agregó una sección "Para Asistentes de IA" en la parte superior del README que contiene instrucciones de comportamiento en lugar de solo descripciones de herramientas.

OpenClawRadar
Desarrollador Crea un Port Nativo de tmux para Windows Usando Claude Code Sin Conocer C
Herramientas

Desarrollador Crea un Port Nativo de tmux para Windows Usando Claude Code Sin Conocer C

Un desarrollador creó tmux-win, un multiplexador nativo para Windows que utiliza Claude Code para manejar la API Win32 y la implementación de conpty, a pesar de no conocer C. La herramienta incluye divisiones verticales/horizontales, sesiones desacoplables y rendimiento nativo sin sobrecarga de máquina virtual.

OpenClawRadar
Habilidades de Marketing de Corey Haines para Agentes de IA
Herramientas

Habilidades de Marketing de Corey Haines para Agentes de IA

Se ha añadido a OpenClaw un conjunto de 25 habilidades de marketing para agentes de IA, que abarcan optimización de conversión, redacción publicitaria, análisis e ingeniería de crecimiento. Se destaca que la habilidad de optimización de conversión es especialmente eficaz en configuraciones multiagente.

OpenClawRadar