Запуск 6-агентного конвейера поведенческого коучинга на локально размещенной модели Qwen3 235B с использованием vLLM.

✍️ OpenClawRadar📅 Опубликовано: 1 апреля 2026 г.🔗 Source
Запуск 6-агентного конвейера поведенческого коучинга на локально размещенной модели Qwen3 235B с использованием vLLM.
Ad

Мультиагентная система поведенческого коучинга

Разработчик реализовал 6-агентный когнитивный конвейер для поведенческого коучинга, который полностью работает на самостоятельно размещённых моделях Qwen3 через vLLM. Система использует инстансы Claude Code в качестве агентов, обращающихся к vLLM-эндпоинту, причём четыре специализированных агента запускаются одновременно на каждое пользовательское сообщение.

Аппаратное обеспечение и настройка

  • Разработка: Qwen3 30B на 2x RTX 4090
  • Продакшен: Qwen3 235B на инстансах RunPod A40
  • Все 6 агентов — это инстансы Claude Code, обращающиеся к vLLM-эндпоинту

Архитектура конвейера

Каждое пользовательское сообщение запускает 6 агентов последовательно:

  • Shadow (Тень) — Запускается первым, записывает межсессионные поведенческие паттерны на общую доску (заявленные цели vs выявленные приоритеты, прогноз выполнения, классификация паттернов)
  • Persona (Персона) — Оценка по OCEAN, обнаружение повторяющихся целей, процентные прогнозы выполнения, определение зон роста
  • Plasticity (Пластичность) — Стратегия коучинга с учётом личности, сопоставление оценок OCEAN с коммуникационными предпочтениями
  • Stability (Стабильность) — Структура оценки рисков с показателями серьёзности/обнаруживаемости/обратимости, выявляет блокирующие ходы, которые коучу не следует предлагать
  • Coach (Коуч) — Запускается рано для немедленного ответа, пока другие агенты обрабатывают данные (~секунды)
  • Synth (Pineal) (Синтезатор/Шишковидный) — Объединяет все выходные данные рабочих агентов, применяет калибровку голоса, выдаёт полный ответ
Ad

Характеристики производительности

Пользователь видит немедленный ответ от Coach, затем полный синтезированный ответ добавляется примерно через 40 секунд на конфигурации с 2x RTX 4090. На конфигурации A40 это занимает около 108 секунд — парадоксально медленнее из-за иной архитектуры памяти.

Ключевые инсайты реализации

Что сработало:

  • Параллельная диспетчеризация — ключевой фактор для производительности
  • Shadow должен записывать первым, потому что синтезу нужен контент с общей доски для корректной агрегации
  • Логика последовательности, гарантирующая завершение Shadow до того, как Synth начнёт работу, добавляет значительную сложность, но это обязательное условие
  • Управление контекстом в масштабе 235B дорого — каждый агент получает полный контекстный бриф плюс историю сессии
  • Агрессивное сжатие между сессиями и жёсткие бюджеты контекста на агента стали основными рычагами надёжности

Что сложно:

  • Добиться, чтобы агенты стабильно выдавали структурированный вывод, достаточный для агрегации синтезом без галлюцинаций артефактов слияния
  • Основной режим отказа: Synth видит конфликтующие сигналы от Persona и Stability в одной сессии

Разработчик ищет мнения других, кто запускает мультиагентные системы на собственном инференсе, особенно касательно стратегий параллелизма в масштабе 235B.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Смотрите также

Приостановка и восстановление аккаунта Google для использования AI-агента
Кейсы

Приостановка и восстановление аккаунта Google для использования AI-агента

Разработчик создал новый аккаунт Gmail для своего ИИ-агента, который Google заблокировал в течение 20 минут. После отправки подробного запроса на восстановление с объяснением назначения агента и мер безопасности, Google восстановил доступ в течение 12 часов.

OpenClawRadar
Открытый рабочий процесс пользовательских отчетов OpenClaw с Minimax 2.7 для редактирования Markdown
Кейсы

Открытый рабочий процесс пользовательских отчетов OpenClaw с Minimax 2.7 для редактирования Markdown

Пользователь описывает использование Minimax 2.7 через Openrouter в качестве более дешёвой альтернативы Claude Cowork для исследования и написания Markdown, интегрируя его с OpenClaw, голосовыми заметками в Telegram, Obsidian и Syncthing для полуживого рабочего процесса редактирования.

OpenClawRadar
Гибридный подход "Локальный+API" снижает затраты на ИИ на 79% в ходе месячного тестирования.
Кейсы

Гибридный подход "Локальный+API" снижает затраты на ИИ на 79% в ходе месячного тестирования.

Разработчик, запустивший круглосуточного ИИ-ассистента на VPS от Hetzner, сократил ежемесячные расходы с $288 до $60, стратегически комбинируя локальные модели с API-вызовами. В настройке используются nomic-embed-text для эмбеддингов и Qwen2.5 7B для фоновых задач, а более сложная работа направляется к моделям Claude.

OpenClawRadar
Архитектурные паттерны агента OpenClaw: Делегирование между агентами, 5-уровневая память и системы мониторинга (Watchdog)
Кейсы

Архитектурные паттерны агента OpenClaw: Делегирование между агентами, 5-уровневая память и системы мониторинга (Watchdog)

Разработчик делится практическими архитектурными паттернами OpenClaw после 7 недель использования, включая делегирование между несколькими агентами со специализированными моделями, 5-уровневую систему памяти с затуханием и систему наблюдения с тремя уровнями мониторинга.

OpenClawRadar