Multi-Agente Local: vLLM, Claude Code y gpt-oss-120b en Linux

Un desarrollador compartió su experiencia creando una configuración de codificación multiagente paralela completamente local en Linux después de cambiar desde Windows. La configuración utiliza vLLM para inferencia paralela, Claude Code para orquestación de agentes, y un modelo de lenguaje grande para tareas de codificación.

Componentes de la Configuración

Contenedor Docker de vLLM: Utilizado para despliegue fácil e inferencia paralela
Claude Code: Maneja la vibecodificación y la orquestación de Equipos de Agentes, configurado para apuntar al endpoint localhost de vLLM en lugar de proveedores en la nube
gpt-oss:120b: Sirve como el agente de codificación
RTX Pro 6000 Blackwell MaxQ: GPU principal para la carga de trabajo
Ubuntu de arranque dual: Configuración del sistema operativo

Mejoras de Rendimiento y Flujo de Trabajo

El desarrollador anteriormente utilizaba Ollama y LM Studio pero encontró que procesaban solicitudes secuencialmente y experimentaban ralentizaciones después de múltiples turnos de mensajes y llamadas a herramientas. Con vLLM, lograron procesamiento paralelo que "turboalimentó" su experiencia.

En pruebas, la configuración manejó 4 agentes colaborando simultáneamente como se muestra en una demostración en video, con la GPU capaz de soportar 8 agentes en paralelo continuamente. El único problema observado fue la reducción del rendimiento, que varía dependiendo del agente.

Tareas a escala de Equipo de Agentes que anteriormente tomaban horas para completarse secuencialmente ahora pueden hacerse en aproximadamente 30 minutos, dependiendo del alcance del proyecto. El desarrollador estima que agregar una segunda GPU MaxQ podría potencialmente escalar el sistema para manejar decenas de agentes concurrentemente.

Este enfoque paralelo permite vibecodificar múltiples proyectos local y concurrentemente, aunque puede introducir cierta latencia aumentada en ciertos escenarios. El desarrollador encontró esta compensación preferible a completar proyectos un agente a la vez.

📖 Read the full source: r/LocalLLaMA

Configuración Local Multi-Agente con vLLM, Claude Code y gpt-oss-120b en Linux

Componentes de la Configuración

Mejoras de Rendimiento y Flujo de Trabajo

👀 Ver también

Automatizando un Podcast Diario de Noticias de IA con Claude Code y Tres Agentes de IA

No desarrollador ejecuta configuración de 18 agentes OpenClaw en Mac mini para marketing digital

Desarrollador Construye Sistema ERP Completo con Asistente de IA Usando Claude y Gemini

Cómo un Desarrollador Usó Claude Code con Linear y Discord para una Construcción en Solitario de 30 Días