Executando um pipeline de coaching comportamental com 6 agentes no Qwen3 235B auto-hospedado com vLLM

Sistema de coaching comportamental multiagente
Um desenvolvedor implementou um pipeline cognitivo de 6 agentes para coaching comportamental que roda inteiramente em modelos Qwen3 auto-hospedados via vLLM. O sistema usa instâncias Claude Code como agentes chamando um endpoint vLLM, com quatro agentes especialistas disparando simultaneamente em cada mensagem do usuário.
Hardware e configuração
- Desenvolvimento: Qwen3 30B em 2x RTX 4090s
- Produção: Qwen3 235B em pods RunPod A40
- Todos os 6 agentes são instâncias Claude Code chamando o endpoint vLLM
Arquitetura do pipeline
Cada mensagem do usuário aciona 6 agentes em sequência:
- Shadow - Executa primeiro, escreve padrões comportamentais entre sessões em um quadro-negro compartilhado (metas declaradas vs prioridades reveladas, previsão de execução, classificação de padrões)
- Persona - Pontuação OCEAN, detecção de metas recorrentes, porcentagens de previsão de execução, identificação de margens de crescimento
- Plasticity - Estratégia de coaching informada por personalidade, mapeia pontuações OCEAN para preferências de comunicação
- Stability - Estrutura de risco com classificações de gravidade/detectabilidade/reversibilidade, identifica movimentos bloqueados que o coach não deve sugerir
- Coach - Dispara cedo para uma resposta imediata enquanto os outros agentes processam (~segundos)
- Synth (Pineal) - Combina todas as saídas dos trabalhadores, aplica calibração de voz, entrega a resposta completa
Características de desempenho
O usuário vê uma resposta imediata do Coach, então a síntese completa é anexada aproximadamente 40 segundos depois em 2x RTX 4090s. Na configuração A40, isso leva cerca de 108 segundos - contra-intuitivamente mais lento devido à arquitetura de memória diferente.
Principais insights de implementação
O que funcionou:
- Despacho paralelo é a chave para o desempenho
- Shadow deve escrever primeiro porque a síntese precisa do conteúdo do quadro-negro para agregar corretamente
- A lógica de sequenciamento para garantir que Shadow complete antes que Synth colete adiciona complexidade significativa, mas é não negociável
- Gerenciamento de contexto em escala 235B é caro - cada agente recebe um briefing de contexto completo mais o histórico da sessão
- Compactação agressiva entre sessões e orçamentos de contexto restritos por agente têm sido as principais alavancas de confiabilidade
O que é difícil:
- Fazer com que os agentes escrevam saída estruturada de forma confiável o suficiente para a síntese agregar sem alucinar artefatos de mesclagem
- Modo principal de falha: Synth vendo sinais conflitantes de Persona e Stability na mesma sessão
O desenvolvedor está buscando contribuições de outros que executam sistemas multiagente em inferência auto-hospedada, particularmente em relação a estratégias de paralelismo em escala 235B.
📖 Read the full source: r/LocalLLaMA
👀 See Also

Implementação do OpenClaw para Empresa de Logística: Análise de E-mails e Atualizações de Status
Um desenvolvedor configurou o OpenClaw para uma pequena empresa de logística para automatizar a análise de e-mails, o cruzamento de dados em planilhas e as atualizações de status, economizando de 2 a 3 horas diárias para o proprietário com código mínimo.

Usando Claude com MCPs para Campanhas de Outbound B2B Automatizadas
Um usuário do Reddit compartilha seu fluxo de trabalho usando Claude com servidores Model Context Protocol (MCP) para automatizar campanhas de prospecção B2B, substituindo Clay por integrações personalizadas de API para descoberta, enriquecimento, verificação de leads e envio de e-mails.

Usuário do OpenClaw compartilha arquitetura para sistema de produção com 43 agentes
Uma consultoria de branding com mais de 1.000 clientes vem executando um sistema OpenClaw de 43 agentes em produção há meses, apresentando uma arquitetura em camadas com agentes especializados nas funções de comando, inteligência, conteúdo, tecnologia e vendas.

Configuração do Claude Code com múltiplos painéis, separação de funções e ganchos de execução
Um desenvolvedor compartilha uma configuração usando quatro painéis do iTerm2 com instâncias separadas do Claude Code para implementação, auditoria, planejamento e refinamento de prompts, além de hooks pré e pós-uso de ferramentas para segurança e um log de sessão para retenção de contexto.