Configuração Multiagente Local: vLLM, Claude Code e gpt-oss-120b

Um desenvolvedor compartilhou sua experiência criando uma configuração de multiagente de codificação totalmente local e paralela no Linux após mudar do Windows. A configuração usa vLLM para inferência paralela, Claude Code para orquestração de agentes e um modelo de linguagem grande para tarefas de codificação.

Componentes da Configuração

Contêiner Docker vLLM: Usado para implantação fácil e inferência paralela
Claude Code: Lida com vibecoding e orquestração de Equipes de Agentes, configurado para apontar para o endpoint localhost do vLLM em vez de provedores de nuvem
gpt-oss:120b: Serve como o agente de codificação
RTX Pro 6000 Blackwell MaxQ: GPU principal para a carga de trabalho
Dual-boot Ubuntu: Configuração do sistema operacional

Melhorias de Desempenho e Fluxo de Trabalho

O desenvolvedor anteriormente usava Ollama e LM Studio, mas descobriu que eles processavam solicitações sequencialmente e experimentavam desacelerações após múltiplos turnos de mensagens e chamadas de ferramentas. Com vLLM, eles alcançaram processamento paralelo que "turboalimentou" sua experiência.

Nos testes, a configuração lidou com 4 agentes colaborando simultaneamente, como mostrado em uma demonstração em vídeo, com a GPU capaz de suportar 8 agentes em paralelo continuamente. O único problema observado foi a redução da taxa de transferência, que varia dependendo do agente.

Tarefas em escala de Equipe de Agentes que anteriormente levavam horas para serem concluídas sequencialmente agora podem ser feitas em aproximadamente 30 minutos, dependendo do escopo do projeto. O desenvolvedor estima que adicionar uma segunda GPU MaxQ poderia potencialmente escalar o sistema para lidar com dezenas de agentes simultaneamente.

Esta abordagem paralela permite vibecoding de múltiplos projetos localmente e simultaneamente, embora possa introduzir alguma latência aumentada em certos cenários. O desenvolvedor considerou esta compensação preferível a completar projetos um agente por vez.

📖 Leia a fonte completa: r/LocalLLaMA

Configuração Local de Múltiplos Agentes com vLLM, Claude Code e gpt-oss-120b no Linux

Componentes da Configuração

Melhorias de Desempenho e Fluxo de Trabalho

👀 See Also

Desenvolvedor cria visualizador de notícias em multistream do YouTube com Claude Code

Estrutura do Agente OpenClaw: 5 Arquivos Principais e 3 Casos de Uso Práticos

Claude Code escreveu cada linha de um vídeo de lançamento dos anos 50 no Remotion — mas foram necessários ~100 prompts

Executando Ferramentas de IA OpenClaw em Laptop Básico Sem GPU