Pipeline de 6 Agentes com Qwen3 235B Auto-Hospedado via vLLM

Sistema de coaching comportamental multiagente

Um desenvolvedor implementou um pipeline cognitivo de 6 agentes para coaching comportamental que roda inteiramente em modelos Qwen3 auto-hospedados via vLLM. O sistema usa instâncias Claude Code como agentes chamando um endpoint vLLM, com quatro agentes especialistas disparando simultaneamente em cada mensagem do usuário.

Hardware e configuração

Desenvolvimento: Qwen3 30B em 2x RTX 4090s
Produção: Qwen3 235B em pods RunPod A40
Todos os 6 agentes são instâncias Claude Code chamando o endpoint vLLM

Arquitetura do pipeline

Cada mensagem do usuário aciona 6 agentes em sequência:

Shadow - Executa primeiro, escreve padrões comportamentais entre sessões em um quadro-negro compartilhado (metas declaradas vs prioridades reveladas, previsão de execução, classificação de padrões)
Persona - Pontuação OCEAN, detecção de metas recorrentes, porcentagens de previsão de execução, identificação de margens de crescimento
Plasticity - Estratégia de coaching informada por personalidade, mapeia pontuações OCEAN para preferências de comunicação
Stability - Estrutura de risco com classificações de gravidade/detectabilidade/reversibilidade, identifica movimentos bloqueados que o coach não deve sugerir
Coach - Dispara cedo para uma resposta imediata enquanto os outros agentes processam (~segundos)
Synth (Pineal) - Combina todas as saídas dos trabalhadores, aplica calibração de voz, entrega a resposta completa

Características de desempenho

O usuário vê uma resposta imediata do Coach, então a síntese completa é anexada aproximadamente 40 segundos depois em 2x RTX 4090s. Na configuração A40, isso leva cerca de 108 segundos - contra-intuitivamente mais lento devido à arquitetura de memória diferente.

Principais insights de implementação

O que funcionou:

Despacho paralelo é a chave para o desempenho
Shadow deve escrever primeiro porque a síntese precisa do conteúdo do quadro-negro para agregar corretamente
A lógica de sequenciamento para garantir que Shadow complete antes que Synth colete adiciona complexidade significativa, mas é não negociável
Gerenciamento de contexto em escala 235B é caro - cada agente recebe um briefing de contexto completo mais o histórico da sessão
Compactação agressiva entre sessões e orçamentos de contexto restritos por agente têm sido as principais alavancas de confiabilidade

O que é difícil:

Fazer com que os agentes escrevam saída estruturada de forma confiável o suficiente para a síntese agregar sem alucinar artefatos de mesclagem
Modo principal de falha: Synth vendo sinais conflitantes de Persona e Stability na mesma sessão

O desenvolvedor está buscando contribuições de outros que executam sistemas multiagente em inferência auto-hospedada, particularmente em relação a estratégias de paralelismo em escala 235B.

📖 Read the full source: r/LocalLLaMA

Executando um pipeline de coaching comportamental com 6 agentes no Qwen3 235B auto-hospedado com vLLM

Sistema de coaching comportamental multiagente

Hardware e configuração

Arquitetura do pipeline

Características de desempenho

Principais insights de implementação

👀 See Also

Claude Code vs Codex: A Divisão do Fluxo de Trabalho de um Builder

Como Claude redigiu um aviso pré-processual e obteve reembolso total por um MacBook defeituoso

Plataforma de Role-Play B2B Usa Opus 4.7 para Backend e Haiku 4.5 para Chat ao Vivo

Desenvolvedor solo cria app de terapia nativo em Swift para iOS usando Claude Opus 4.6 para codificação, depuração e arquitetura