Configuração Local de Múltiplos Agentes com vLLM, Claude Code e gpt-oss-120b no Linux

Um desenvolvedor compartilhou sua experiência criando uma configuração de multiagente de codificação totalmente local e paralela no Linux após mudar do Windows. A configuração usa vLLM para inferência paralela, Claude Code para orquestração de agentes e um modelo de linguagem grande para tarefas de codificação.
Componentes da Configuração
- Contêiner Docker vLLM: Usado para implantação fácil e inferência paralela
- Claude Code: Lida com vibecoding e orquestração de Equipes de Agentes, configurado para apontar para o endpoint localhost do vLLM em vez de provedores de nuvem
- gpt-oss:120b: Serve como o agente de codificação
- RTX Pro 6000 Blackwell MaxQ: GPU principal para a carga de trabalho
- Dual-boot Ubuntu: Configuração do sistema operacional
Melhorias de Desempenho e Fluxo de Trabalho
O desenvolvedor anteriormente usava Ollama e LM Studio, mas descobriu que eles processavam solicitações sequencialmente e experimentavam desacelerações após múltiplos turnos de mensagens e chamadas de ferramentas. Com vLLM, eles alcançaram processamento paralelo que "turboalimentou" sua experiência.
Nos testes, a configuração lidou com 4 agentes colaborando simultaneamente, como mostrado em uma demonstração em vídeo, com a GPU capaz de suportar 8 agentes em paralelo continuamente. O único problema observado foi a redução da taxa de transferência, que varia dependendo do agente.
Tarefas em escala de Equipe de Agentes que anteriormente levavam horas para serem concluídas sequencialmente agora podem ser feitas em aproximadamente 30 minutos, dependendo do escopo do projeto. O desenvolvedor estima que adicionar uma segunda GPU MaxQ poderia potencialmente escalar o sistema para lidar com dezenas de agentes simultaneamente.
Esta abordagem paralela permite vibecoding de múltiplos projetos localmente e simultaneamente, embora possa introduzir alguma latência aumentada em certos cenários. O desenvolvedor considerou esta compensação preferível a completar projetos um agente por vez.
📖 Leia a fonte completa: r/LocalLLaMA
👀 See Also

Desenvolvedor cria visualizador de notícias em multistream do YouTube com Claude Code
Um desenvolvedor usou o Claude Code para construir o Beholder, um painel de monitoramento de notícias em tempo real que exibe dezenas de transmissões ao vivo de notícias do YouTube simultaneamente, com classificações de viés midiático. A ferramenta inclui mais de 200 canais, tickers de notícias ao vivo e funciona em dispositivos móveis, tablets e desktops.

Estrutura do Agente OpenClaw: 5 Arquivos Principais e 3 Casos de Uso Práticos
Um usuário do OpenClaw descobriu que todos os agentes são construídos a partir de cinco arquivos principais: Usuário, Alma, Agente, Ferramentas e Identidade. Eles compartilharam três agentes funcionais, incluindo um agregador de resumos diários de IA, um tutor de matemática para crianças e um gerador de YouTube Shorts.
Claude Code escreveu cada linha de um vídeo de lançamento dos anos 50 no Remotion — mas foram necessários ~100 prompts
Um desenvolvedor detalha o uso do Claude Code para gerar cada linha de TypeScript/TSX para um vídeo de lançamento no Remotion. O processo exigiu ~100 prompts, um briefing criativo detalhado, iteração cena por cena e frequentes diffs de git.

Executando Ferramentas de IA OpenClaw em Laptop Básico Sem GPU
Um usuário executou com sucesso as ferramentas de IA OpenClaw em um laptop básico sem GPU dedicada, compartilhando seu processo de configuração em um tutorial no YouTube.