Локальная настройка Multi-Agent с использованием vLLM, Claude Code и gpt-oss-120b на Linux

Разработчик поделился опытом создания полностью локальной параллельной мультиагентной системы для программирования на Linux после перехода с Windows. Конфигурация использует vLLM для параллельного вывода, Claude Code для оркестрации агентов и большую языковую модель для задач программирования.
Компоненты системы
- Контейнер Docker с vLLM: Используется для простого развертывания и параллельного вывода
- Claude Code: Управляет вибекодингом и оркестрацией команд агентов, настроен на указание локального эндпоинта vLLM вместо облачных провайдеров
- gpt-oss:120b: Служит в качестве кодирующего агента
- RTX Pro 6000 Blackwell MaxQ: Основной GPU для рабочих нагрузок
- Двойная загрузка Ubuntu: Настройка операционной системы
Производительность и улучшения рабочего процесса
Ранее разработчик использовал Ollama и LM Studio, но обнаружил, что они обрабатывают запросы последовательно и испытывают замедления после нескольких поворотов сообщений и вызовов инструментов. С vLLM он достиг параллельной обработки, которая «ускорила» его опыт.
В тестировании система справилась с 4 агентами, работающими одновременно, как показано в видеодемонстрации, при этом GPU способен поддерживать 8 агентов параллельно непрерывно. Единственной отмеченной проблемой было снижение пропускной способности, которое варьируется в зависимости от агента.
Задачи масштаба команд агентов, которые ранее занимали часы для последовательного выполнения, теперь могут быть выполнены примерно за 30 минут, в зависимости от объема проекта. Разработчик оценивает, что добавление второго GPU MaxQ потенциально может масштабировать систему для обработки десятков агентов одновременно.
Этот параллельный подход позволяет выполнять вибекодинг нескольких проектов локально и одновременно, хотя в некоторых сценариях может возникать повышенная задержка. Разработчик считает этот компромисс предпочтительнее, чем завершение проектов по одному агенту за раз.
📖 Прочитать полный источник: r/LocalLLaMA
👀 Смотрите также

Агент RunLobster AI создает функциональную панель управления на основе запроса на естественном языке.
Разработчик сообщает, что RunLobster создал и развернул полноценную панель управления с интеграцией Stripe и системой аутентификации в ответ на одну команду на естественном языке, выполнив за минуты то, что обычно занимает дни.

Пользователь Reddit делится методом, основанным на спецификациях, для снижения количества галлюцинаций в коде Claude.
Разработчик на r/ClaudeAI описывает использование структурированного метода спецификаций для значительного сокращения галлюцинаций в Claude Code. Подход включает создание файлов REQUIREMENTS.md, IMPLEMENTATION_PLAN.md и CLAUDE.md для сохранения контекста при множественных компрессиях.

Использование Claude Code для создания блога о путешествиях по Японии с искусственно созданными изображениями и видео
Разработчик использовал Claude Code для создания персонального сайта-эссе о Японии, управляя всем творческим процессом: от редактирования текста и преобразования изображений с помощью Nano Banana Pro до анимации видео с использованием Veo 3.1 и 3.0-fast и развертывания на Railway.

Разработка игр в Steam с использованием Claude Code: Процесс технического обзора и реструктуризация кода
Разработчик использовал Claude Code для создания и публикации игры в Steam, подробно описав, как он справился с интеграцией Steamworks SDK, настройкой депозита и локализацией на 7 языков, но столкнулся с трудностями с требованиями к изображениям и жёстко заданными структурами данных.