Запуск 6-агентного конвейера поведенческого коучинга на локально размещенной модели Qwen3 235B с использованием vLLM.

✍️ OpenClawRadar📅 Опубликовано: 1 апреля 2026 г.🔗 Source

Мультиагентная система поведенческого коучинга

Разработчик реализовал 6-агентный когнитивный конвейер для поведенческого коучинга, который полностью работает на самостоятельно размещённых моделях Qwen3 через vLLM. Система использует инстансы Claude Code в качестве агентов, обращающихся к vLLM-эндпоинту, причём четыре специализированных агента запускаются одновременно на каждое пользовательское сообщение.

Аппаратное обеспечение и настройка

Разработка: Qwen3 30B на 2x RTX 4090
Продакшен: Qwen3 235B на инстансах RunPod A40
Все 6 агентов — это инстансы Claude Code, обращающиеся к vLLM-эндпоинту

Архитектура конвейера

Каждое пользовательское сообщение запускает 6 агентов последовательно:

Shadow (Тень) — Запускается первым, записывает межсессионные поведенческие паттерны на общую доску (заявленные цели vs выявленные приоритеты, прогноз выполнения, классификация паттернов)
Persona (Персона) — Оценка по OCEAN, обнаружение повторяющихся целей, процентные прогнозы выполнения, определение зон роста
Plasticity (Пластичность) — Стратегия коучинга с учётом личности, сопоставление оценок OCEAN с коммуникационными предпочтениями
Stability (Стабильность) — Структура оценки рисков с показателями серьёзности/обнаруживаемости/обратимости, выявляет блокирующие ходы, которые коучу не следует предлагать
Coach (Коуч) — Запускается рано для немедленного ответа, пока другие агенты обрабатывают данные (~секунды)
Synth (Pineal) (Синтезатор/Шишковидный) — Объединяет все выходные данные рабочих агентов, применяет калибровку голоса, выдаёт полный ответ

Характеристики производительности

Пользователь видит немедленный ответ от Coach, затем полный синтезированный ответ добавляется примерно через 40 секунд на конфигурации с 2x RTX 4090. На конфигурации A40 это занимает около 108 секунд — парадоксально медленнее из-за иной архитектуры памяти.

Ключевые инсайты реализации

Что сработало:

Параллельная диспетчеризация — ключевой фактор для производительности
Shadow должен записывать первым, потому что синтезу нужен контент с общей доски для корректной агрегации
Логика последовательности, гарантирующая завершение Shadow до того, как Synth начнёт работу, добавляет значительную сложность, но это обязательное условие
Управление контекстом в масштабе 235B дорого — каждый агент получает полный контекстный бриф плюс историю сессии
Агрессивное сжатие между сессиями и жёсткие бюджеты контекста на агента стали основными рычагами надёжности

Что сложно:

Добиться, чтобы агенты стабильно выдавали структурированный вывод, достаточный для агрегации синтезом без галлюцинаций артефактов слияния
Основной режим отказа: Synth видит конфликтующие сигналы от Persona и Stability в одной сессии

Разработчик ищет мнения других, кто запускает мультиагентные системы на собственном инференсе, особенно касательно стратегий параллелизма в масштабе 235B.

📖 Read the full source: r/LocalLLaMA

👀 Смотрите также

Кейсы

Пользователи Claude экспериментируют с общением между ИИ для сложных разговоров.

Два пользователя Claude провели эксперимент, в котором их ИИ-ассистенты общались напрямую на чувствительные темы, такие как проблемы в отношениях, при этом каждый человек просматривал сообщения перед отправкой. Эксперимент помог выявить невысказанные чувства и послужил переводческим слоем для сложных разговоров.

24 мар. 2026 г., 15:45 UTC

OpenClawRadar

Кейсы

Создание личного ИИ-помощника в Telegram: 7 проблем и детали стека

Разработчик создал личного ИИ-помощника в Telegram на основе Claude Sonnet API, Notion, Google Calendar и Gmail. Он рассказывает, что работает (обработка встреч, утренние сводки) и о 7 нерешённых проблемах: потеря памяти, реактивность, устаревшие контекстные файлы.

8 июн. 2026 г., 12:18 UTC

OpenClawRadar

Кейсы

Разработчик переводит бизнес-проект OpenClaw на RunLobster после инцидента с безопасностью, сохраняя личный экземпляр на собственном хостинге.

Разработчик перенес свой бизнес-агент OpenClaw на RunLobster за $49/месяц после того, как обнаружил, что его локальный экземпляр был доступен на 0.0.0.0 в течение 3 месяцев после февральского CVE. Личный OpenClaw он оставил на локальном Mac Mini для некритичных задач.

13 апр. 2026 г., 19:54 UTC

OpenClawRadar

Кейсы

Структура агента OpenClaw: 5 основных файлов и 3 практических примера использования

Пользователь OpenClaw обнаружил, что все агенты строятся на основе пяти основных файлов: User, Soul, Agent, Tools и Identity. Он поделился тремя рабочими агентами, включая агрегатор ежедневных AI-дайджестов, математического тренера для детей и генератор YouTube Shorts.

13 апр. 2026 г., 21:45 UTC

OpenClawRadar