Configuration Multi-Agent Locale avec vLLM, Claude Code et gpt-oss-120b sous Linux

✍️ OpenClawRadar📅 Publié: March 26, 2026🔗 Source
Configuration Multi-Agent Locale avec vLLM, Claude Code et gpt-oss-120b sous Linux
Ad

Un développeur a partagé son expérience de création d'une configuration multi-agent de codage entièrement locale et parallèle sous Linux après avoir quitté Windows. La configuration utilise vLLM pour l'inférence parallèle, Claude Code pour l'orchestration des agents et un grand modèle de langage pour les tâches de codage.

Composants de la configuration

  • Conteneur Docker vLLM : Utilisé pour un déploiement facile et une inférence parallèle
  • Claude Code : Gère le vibecoding et l'orchestration des équipes d'agents, configuré pour pointer vers le point de terminaison localhost de vLLM au lieu des fournisseurs cloud
  • gpt-oss:120b : Sert d'agent de codage
  • RTX Pro 6000 Blackwell MaxQ : GPU principal pour la charge de travail
  • Dual-boot Ubuntu : Configuration du système d'exploitation
Ad

Améliorations des performances et du flux de travail

Le développeur utilisait auparavant Ollama et LM Studio mais a constaté qu'ils traitaient les requêtes séquentiellement et subissaient des ralentissements après plusieurs tours de messages et appels d'outils. Avec vLLM, il a obtenu un traitement parallèle qui a "boosté" son expérience.

Lors des tests, la configuration a géré 4 agents collaborant simultanément comme le montre une démonstration vidéo, le GPU étant capable de supporter 8 agents en parallèle en continu. Le seul problème noté était une réduction du débit, qui varie selon l'agent.

Les tâches à l'échelle d'équipes d'agents qui prenaient auparavant des heures à réaliser séquentiellement peuvent maintenant être effectuées en environ 30 minutes, selon la portée du projet. Le développeur estime qu'ajouter un deuxième GPU MaxQ pourrait potentiellement faire évoluer le système pour gérer des dizaines d'agents simultanément.

Cette approche parallèle permet de faire du vibecoding sur plusieurs projets localement et simultanément, bien qu'elle puisse introduire une latence accrue dans certains scénarios. Le développeur a trouvé ce compromis préférable à la réalisation des projets un agent à la fois.

📖 Lire la source complète : r/LocalLLaMA

Ad

👀 See Also

Analyse de 7 ans de journal intime avec un LLM : échecs du RAG vs du fine-tuning
Use Cases

Analyse de 7 ans de journal intime avec un LLM : échecs du RAG vs du fine-tuning

Après avoir tenu un journal depuis 2019, un développeur a alimenté un LLM avec plus de 200 entrées pour découvrir des schémas — RAG a échoué, le fine-tuning a échoué, et la confidentialité était une contrainte. L'approche finale a révélé des leçons de vie cycliques tous les deux ans.

OpenClawRadar
Transformez Claude en un TPM IA : Mémoire organisationnelle via des instances séparées
Use Cases

Transformez Claude en un TPM IA : Mémoire organisationnelle via des instances séparées

Un utilisateur de Reddit a créé des instances Claude persistantes qui agissent comme un chef de projet technique IA en y intégrant des notes de réunion, des discussions Slack, des documents de projet et le contexte organisationnel. Le système maintient désormais une mémoire organisationnelle, identifie les conflits, suggère les prochaines étapes et génère des documents de suivi.

OpenClawRadar
Utilisateur d'OpenClaw signale une meilleure utilité après connexion à la documentation via MCP
Use Cases

Utilisateur d'OpenClaw signale une meilleure utilité après connexion à la documentation via MCP

Un utilisateur a constaté que sa configuration OpenClaw est devenue nettement plus utile après l'avoir connectée à sa documentation en utilisant yavy.dev pour l'indexation et MCP pour l'intégration, passant ainsi d'une simple fonction de questions-réponses génériques à une assistance spécifique pour le dépannage et la configuration.

OpenClawRadar
Utilisation d'un LLM local pour surveiller les sessions AFK des bots Minecraft
Use Cases

Utilisation d'un LLM local pour surveiller les sessions AFK des bots Minecraft

Un développeur a utilisé un LLM local pour surveiller son bot Minecraft exécutant Baritone pour des tâches de minage, en configurant une surveillance d'écran pour recevoir des alertes lorsque le bot meurt ou se déconnecte du serveur.

OpenClawRadar