Configuração Local de Múltiplos Agentes com vLLM, Claude Code e gpt-oss-120b no Linux

✍️ OpenClawRadar📅 Publicado: March 26, 2026🔗 Source
Configuração Local de Múltiplos Agentes com vLLM, Claude Code e gpt-oss-120b no Linux
Ad

Um desenvolvedor compartilhou sua experiência criando uma configuração de multiagente de codificação totalmente local e paralela no Linux após mudar do Windows. A configuração usa vLLM para inferência paralela, Claude Code para orquestração de agentes e um modelo de linguagem grande para tarefas de codificação.

Componentes da Configuração

  • Contêiner Docker vLLM: Usado para implantação fácil e inferência paralela
  • Claude Code: Lida com vibecoding e orquestração de Equipes de Agentes, configurado para apontar para o endpoint localhost do vLLM em vez de provedores de nuvem
  • gpt-oss:120b: Serve como o agente de codificação
  • RTX Pro 6000 Blackwell MaxQ: GPU principal para a carga de trabalho
  • Dual-boot Ubuntu: Configuração do sistema operacional
Ad

Melhorias de Desempenho e Fluxo de Trabalho

O desenvolvedor anteriormente usava Ollama e LM Studio, mas descobriu que eles processavam solicitações sequencialmente e experimentavam desacelerações após múltiplos turnos de mensagens e chamadas de ferramentas. Com vLLM, eles alcançaram processamento paralelo que "turboalimentou" sua experiência.

Nos testes, a configuração lidou com 4 agentes colaborando simultaneamente, como mostrado em uma demonstração em vídeo, com a GPU capaz de suportar 8 agentes em paralelo continuamente. O único problema observado foi a redução da taxa de transferência, que varia dependendo do agente.

Tarefas em escala de Equipe de Agentes que anteriormente levavam horas para serem concluídas sequencialmente agora podem ser feitas em aproximadamente 30 minutos, dependendo do escopo do projeto. O desenvolvedor estima que adicionar uma segunda GPU MaxQ poderia potencialmente escalar o sistema para lidar com dezenas de agentes simultaneamente.

Esta abordagem paralela permite vibecoding de múltiplos projetos localmente e simultaneamente, embora possa introduzir alguma latência aumentada em certos cenários. O desenvolvedor considerou esta compensação preferível a completar projetos um agente por vez.

📖 Leia a fonte completa: r/LocalLLaMA

Ad

👀 See Also

Desenvolvedor cria visualizador de notícias em multistream do YouTube com Claude Code
Use Cases

Desenvolvedor cria visualizador de notícias em multistream do YouTube com Claude Code

Um desenvolvedor usou o Claude Code para construir o Beholder, um painel de monitoramento de notícias em tempo real que exibe dezenas de transmissões ao vivo de notícias do YouTube simultaneamente, com classificações de viés midiático. A ferramenta inclui mais de 200 canais, tickers de notícias ao vivo e funciona em dispositivos móveis, tablets e desktops.

OpenClawRadar
Estrutura do Agente OpenClaw: 5 Arquivos Principais e 3 Casos de Uso Práticos
Use Cases

Estrutura do Agente OpenClaw: 5 Arquivos Principais e 3 Casos de Uso Práticos

Um usuário do OpenClaw descobriu que todos os agentes são construídos a partir de cinco arquivos principais: Usuário, Alma, Agente, Ferramentas e Identidade. Eles compartilharam três agentes funcionais, incluindo um agregador de resumos diários de IA, um tutor de matemática para crianças e um gerador de YouTube Shorts.

OpenClawRadar
🦀
Use Cases

Claude Code escreveu cada linha de um vídeo de lançamento dos anos 50 no Remotion — mas foram necessários ~100 prompts

Um desenvolvedor detalha o uso do Claude Code para gerar cada linha de TypeScript/TSX para um vídeo de lançamento no Remotion. O processo exigiu ~100 prompts, um briefing criativo detalhado, iteração cena por cena e frequentes diffs de git.

OpenClawRadar
Executando Ferramentas de IA OpenClaw em Laptop Básico Sem GPU
Use Cases

Executando Ferramentas de IA OpenClaw em Laptop Básico Sem GPU

Um usuário executou com sucesso as ferramentas de IA OpenClaw em um laptop básico sem GPU dedicada, compartilhando seu processo de configuração em um tutorial no YouTube.

OpenClawRadar