Qwen3.5 35B-A3B MoE: Flujo de trabajo 27 pasos local

Demostración de flujo de trabajo agéntico local

Un desarrollador en r/LocalLLaMA reportó ejecutar exitosamente un flujo de trabajo agéntico complejo localmente usando Qwen3.5 35B-A3B MoE. El modelo ejecutó una cadena de procesamiento de video de 27 pasos de forma autónoma en hardware de gama media.

Detalles del flujo de trabajo

La tarea involucró procesar un video desde un solo comando en lenguaje natural:

Subir un video
Transcribir con Whisper
Editar los subtítulos
Incrustar subtítulos nuevamente en el video con estilo personalizado

El flujo de trabajo consistió en 27 llamadas secuenciales a herramientas incluyendo: extract_audio, transcribe, read_file, edit_file, burn_subtitles, más pasos de verificación. El modelo planificó, ejecutó, verificó cada paso y se autocorrigió cuando fue necesario.

Especificaciones técnicas

Hardware:

Estación de trabajo móvil Lenovo ThinkPad P53
Procesador Intel i7-9850H
Quadro RTX 3000 (6GB VRAM)
48GB RAM DDR4 2666MT/s

Pila de software:

Implementación completamente local con llama.cpp + whisper.cpp
No se usaron APIs en la nube

Configuración del modelo:

Qwen3.5 35B-A3B MoE con cuantización Q4_K_M
Arquitectura MoE con ~3B parámetros activos por token
Cabe y ejecuta en 6GB VRAM con capas descargadas
Base de conocimiento completa de 35B parámetros

Resultados de rendimiento

El flujo de trabajo completo se ejecutó en aproximadamente 10 minutos, con la mayor parte del tiempo dedicado a inferencia. El desarrollador notó cero errores y cero intervención humana requerida durante la cadena de 27 pasos. La arquitectura MoE hizo esto factible en hardware de gama media manteniendo bajo el conteo de parámetros activos mientras conservaba la capacidad completa del modelo.

Esto demuestra que los flujos de trabajo agénticos locales se están volviendo prácticos en hardware de nivel consumidor, particularmente con modelos MoE que equilibran el conteo de parámetros activos para velocidad contra el conteo total de parámetros para capacidad.

📖 Leer la fuente completa: r/LocalLLaMA

Qwen3.5 35B-A3B MoE ejecuta un flujo de trabajo agencial de 27 pasos localmente en hardware de gama media.

Demostración de flujo de trabajo agéntico local

Detalles del flujo de trabajo

Especificaciones técnicas

Resultados de rendimiento

👀 Ver también

Claude AI Analiza Datos de Viajes en Automóvil en CSV Sin Indicaciones Específicas

El desarrollador usa Claude para crear una aplicación completa de diario de sueños, pero elimina todas las funciones de IA del producto final.

Demostración de Llamada de Voz del Agente OpenClaw con TTS en Streaming e Interrupción

Documentos del Desarrollador 11.7B Tokens de Claude Usados en Más de 45 Días, Detalles de Cuatro Proyectos