Ejecutando una canalización de coaching conductual con 6 agentes en Qwen3 235B autoalojado con vLLM

✍️ OpenClawRadar📅 Publicado: 1 de abril de 2026🔗 Source
Ejecutando una canalización de coaching conductual con 6 agentes en Qwen3 235B autoalojado con vLLM
Ad

Sistema de coaching conductual multiagente

Un desarrollador ha implementado una canalización cognitiva de 6 agentes para coaching conductual que funciona completamente en modelos Qwen3 autoalojados a través de vLLM. El sistema utiliza instancias de Claude Code como agentes que llaman a un endpoint vLLM, con cuatro agentes especialistas activándose simultáneamente en cada mensaje del usuario.

Hardware y configuración

  • Desarrollo: Qwen3 30B en 2x RTX 4090
  • Producción: Qwen3 235B en pods RunPod A40
  • Todos los 6 agentes son instancias de Claude Code que llaman al endpoint vLLM

Arquitectura de la canalización

Cada mensaje del usuario activa 6 agentes en secuencia:

  • Sombra - Se ejecuta primero, escribe patrones conductuales entre sesiones en una pizarra compartida (objetivos declarados vs prioridades reveladas, predicción de seguimiento, clasificación de patrones)
  • Persona - Puntuación OCEAN, detección de objetivos recurrentes, porcentajes de predicción de seguimiento, identificación de áreas de crecimiento
  • Plasticidad - Estrategia de coaching informada por personalidad, mapea puntuaciones OCEAN a preferencias de comunicación
  • Estabilidad - Marco de riesgo con calificaciones de severidad/detectabilidad/reversibilidad, identifica movimientos bloqueados que el coach no debería sugerir
  • Coach - Se activa temprano para una respuesta inmediata mientras los otros agentes procesan (~segundos)
  • Síntesis (Pineal) - Fusiona todas las salidas de los trabajadores, aplica calibración de voz, entrega la respuesta completa
Ad

Características de rendimiento

El usuario ve una respuesta inmediata del Coach, luego la síntesis completa se añade aproximadamente 40 segundos después en 2x RTX 4090. En la configuración A40, esto toma alrededor de 108 segundos - curiosamente más lento debido a la diferente arquitectura de memoria.

Perspectivas clave de implementación

Lo que funcionó:

  • El despacho paralelo es la clave para el rendimiento
  • Sombra debe escribir primero porque la síntesis necesita el contenido de la pizarra para agregar correctamente
  • La lógica de secuenciación para garantizar que Sombra se complete antes de que Síntesis recoja añade complejidad significativa pero es no negociable
  • La gestión de contexto a escala 235B es costosa - cada agente recibe un resumen de contexto completo más el historial de sesiones
  • La compactación agresiva entre sesiones y presupuestos de contexto ajustados por agente han sido las principales palancas de confiabilidad

Lo que es difícil:

  • Lograr que los agentes escriban salidas estructuradas de manera suficientemente confiable para que la síntesis pueda agregar sin alucinar artefactos de fusión
  • Modo principal de falla: Síntesis viendo señales conflictivas de Persona y Estabilidad en la misma sesión

El desarrollador está buscando aportes de otros que ejecutan sistemas multiagente en inferencia autoalojada, particularmente respecto a estrategias de paralelismo a escala 235B.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Ver también

Agentes de IA Claude Construyen Simulador, Optimizan Algoritmo de Juego para Superar Puntuación Humana
Casos de uso

Agentes de IA Claude Construyen Simulador, Optimizan Algoritmo de Juego para Superar Puntuación Humana

Un desarrollador probó agentes de IA Claude en el juego de programación The Farmer Was Replaced haciéndoles construir un simulador en Python del juego, luego desarrollando iterativamente un algoritmo de cosecha de girasoles. La IA logró un tiempo de 5:21, superando el récord personal del desarrollador y alcanzando el puesto 30 en la tabla de clasificación global.

OpenClawRadar
Usando Claude Code para Construir un Pipeline de Análisis de Imágenes Satelitales para Predicciones Minoristas
Casos de uso

Usando Claude Code para Construir un Pipeline de Análisis de Imágenes Satelitales para Predicciones Minoristas

Un desarrollador utilizó Claude Code para construir un pipeline completo de análisis de imágenes satelitales que extrae datos ópticos de Sentinel-2 y de radar de Sentinel-1 a través de Google Earth Engine, procesa límites de estacionamientos desde OpenStreetMap y calcula métricas de ocupación para predecir resultados de ganancias minoristas.

OpenClawRadar
Postmortem: Sistema de Gobernanza para Proyectos de Codificación con IA con Claude
Casos de uso

Postmortem: Sistema de Gobernanza para Proyectos de Codificación con IA con Claude

Un desarrollador compartió un análisis post mortem de un proyecto de Claude Code de 2 semanas que produjo 23 mil líneas de código y 2,629 pruebas por aproximadamente $100, enfatizando que el sistema de gobernanza fue más importante que los prompts. El marco de trabajo es de código abierto.

OpenClawRadar
Desarrollador Crea un Lanzador de Minecraft con Código Claude
Casos de uso

Desarrollador Crea un Lanzador de Minecraft con Código Claude

Un desarrollador con más de 20 años de experiencia utilizó Claude Code para crear BlockHaven Launcher, un lanzador de Minecraft basado en Electron con autenticación de Microsoft, navegación de mods de Modrinth y perfiles de múltiples instancias aisladas. El proyecto es de código abierto con licencia MIT.

OpenClawRadar