Configurer Multi-Agent Local avec vLLM, Claude Code et gpt-oss-120b

Un développeur a partagé son expérience de création d'une configuration multi-agent de codage entièrement locale et parallèle sous Linux après avoir quitté Windows. La configuration utilise vLLM pour l'inférence parallèle, Claude Code pour l'orchestration des agents et un grand modèle de langage pour les tâches de codage.

Composants de la configuration

Conteneur Docker vLLM : Utilisé pour un déploiement facile et une inférence parallèle
Claude Code : Gère le vibecoding et l'orchestration des équipes d'agents, configuré pour pointer vers le point de terminaison localhost de vLLM au lieu des fournisseurs cloud
gpt-oss:120b : Sert d'agent de codage
RTX Pro 6000 Blackwell MaxQ : GPU principal pour la charge de travail
Dual-boot Ubuntu : Configuration du système d'exploitation

Améliorations des performances et du flux de travail

Le développeur utilisait auparavant Ollama et LM Studio mais a constaté qu'ils traitaient les requêtes séquentiellement et subissaient des ralentissements après plusieurs tours de messages et appels d'outils. Avec vLLM, il a obtenu un traitement parallèle qui a "boosté" son expérience.

Lors des tests, la configuration a géré 4 agents collaborant simultanément comme le montre une démonstration vidéo, le GPU étant capable de supporter 8 agents en parallèle en continu. Le seul problème noté était une réduction du débit, qui varie selon l'agent.

Les tâches à l'échelle d'équipes d'agents qui prenaient auparavant des heures à réaliser séquentiellement peuvent maintenant être effectuées en environ 30 minutes, selon la portée du projet. Le développeur estime qu'ajouter un deuxième GPU MaxQ pourrait potentiellement faire évoluer le système pour gérer des dizaines d'agents simultanément.

Cette approche parallèle permet de faire du vibecoding sur plusieurs projets localement et simultanément, bien qu'elle puisse introduire une latence accrue dans certains scénarios. Le développeur a trouvé ce compromis préférable à la réalisation des projets un agent à la fois.

📖 Lire la source complète : r/LocalLLaMA

Configuration Multi-Agent Locale avec vLLM, Claude Code et gpt-oss-120b sous Linux

Composants de la configuration

Améliorations des performances et du flux de travail

👀 See Also

Claude Managed Agents publié : Orchestration multi-agents et 70 jours de leçons pratiques

Piège de productivité de l'IA pour développeurs : De 80 commits/mois à plus de 1 400 avec 17 agents

Pipeline de l'Agent OpenClaw Utilisée pour Écrire et Publier Trois Romans d'IA en une Semaine

L'utilisateur d'OpenClaw rencontre des difficultés avec l'automatisation de l'agent IA après le succès du pipeline Claude Code.