Canalización de 6 Agentes con Qwen3 235B Autoalojado

Sistema de coaching conductual multiagente

Un desarrollador ha implementado una canalización cognitiva de 6 agentes para coaching conductual que funciona completamente en modelos Qwen3 autoalojados a través de vLLM. El sistema utiliza instancias de Claude Code como agentes que llaman a un endpoint vLLM, con cuatro agentes especialistas activándose simultáneamente en cada mensaje del usuario.

Hardware y configuración

Desarrollo: Qwen3 30B en 2x RTX 4090
Producción: Qwen3 235B en pods RunPod A40
Todos los 6 agentes son instancias de Claude Code que llaman al endpoint vLLM

Arquitectura de la canalización

Cada mensaje del usuario activa 6 agentes en secuencia:

Sombra - Se ejecuta primero, escribe patrones conductuales entre sesiones en una pizarra compartida (objetivos declarados vs prioridades reveladas, predicción de seguimiento, clasificación de patrones)
Persona - Puntuación OCEAN, detección de objetivos recurrentes, porcentajes de predicción de seguimiento, identificación de áreas de crecimiento
Plasticidad - Estrategia de coaching informada por personalidad, mapea puntuaciones OCEAN a preferencias de comunicación
Estabilidad - Marco de riesgo con calificaciones de severidad/detectabilidad/reversibilidad, identifica movimientos bloqueados que el coach no debería sugerir
Coach - Se activa temprano para una respuesta inmediata mientras los otros agentes procesan (~segundos)
Síntesis (Pineal) - Fusiona todas las salidas de los trabajadores, aplica calibración de voz, entrega la respuesta completa

Características de rendimiento

El usuario ve una respuesta inmediata del Coach, luego la síntesis completa se añade aproximadamente 40 segundos después en 2x RTX 4090. En la configuración A40, esto toma alrededor de 108 segundos - curiosamente más lento debido a la diferente arquitectura de memoria.

Perspectivas clave de implementación

Lo que funcionó:

El despacho paralelo es la clave para el rendimiento
Sombra debe escribir primero porque la síntesis necesita el contenido de la pizarra para agregar correctamente
La lógica de secuenciación para garantizar que Sombra se complete antes de que Síntesis recoja añade complejidad significativa pero es no negociable
La gestión de contexto a escala 235B es costosa - cada agente recibe un resumen de contexto completo más el historial de sesiones
La compactación agresiva entre sesiones y presupuestos de contexto ajustados por agente han sido las principales palancas de confiabilidad

Lo que es difícil:

Lograr que los agentes escriban salidas estructuradas de manera suficientemente confiable para que la síntesis pueda agregar sin alucinar artefactos de fusión
Modo principal de falla: Síntesis viendo señales conflictivas de Persona y Estabilidad en la misma sesión

El desarrollador está buscando aportes de otros que ejecutan sistemas multiagente en inferencia autoalojada, particularmente respecto a estrategias de paralelismo a escala 235B.

📖 Read the full source: r/LocalLLaMA

Ejecutando una canalización de coaching conductual con 6 agentes en Qwen3 235B autoalojado con vLLM

Sistema de coaching conductual multiagente

Hardware y configuración

Arquitectura de la canalización

Características de rendimiento

Perspectivas clave de implementación

👀 Ver también

Creación de una aplicación completa con Lovable + Claude + Gemini: Un caso de estudio

El bot OpenClaw conecta n8n, WordPress, Airtable y GHL para la automatización del CRM.

Construyendo una Plataforma de Alojamiento de IA Gestionada con Rails 8, Docker y Traefik

No desarrollador construye herramientas de narrativa astrológica con la API de Claude.