Qwen3.6-27B как локальный слой рассуждений: результаты двухнедельного тестирования мультиагентной системы

✍️ OpenClawRadar📅 Опубликовано: 19 июня 2026 г.🔗 Source
Qwen3.6-27B как локальный слой рассуждений: результаты двухнедельного тестирования мультиагентной системы
Ad

Разработчик заменил Claude на Qwen3.6-27B в мультиагентном оркестраторе на две недели, запущенном полностью на одной RTX 3090. Цель была простой: проверить, может ли локальная модель служить слоем рассуждений — циклом лидер/менеджер/подчиненный агент — в реальных рабочих процессах кодирования. Результаты дают конкретные цифры для тех, кто задумывается о сокращении облачных расходов.

Настройка и базовый уровень

  • Оборудование: RTX 3090, 24 ГБ видеопамяти
  • Модель: Qwen3.6-27B в квантовании Q6_K (~22 ГБ на GPU), эффективный контекст 32k
  • Движок инференса: Ollama
  • Оркестратор: Мультиагентная система со структурированными JSON-планами, модальным окном подтверждения плана, автоматической проверкой после завершения подчиненного агента
  • Нагрузка: 47 многошаговых рабочих процессов в двух реальных репозиториях

Что сработало (слой рассуждений)

Генерация планов. Qwen3.6 генерировала многошаговые планы примерно так же хорошо, как Claude на этих задачах. Немного более консервативна — меньше несанкционированных предложений по рефакторингу — но связно и валидно по схеме ~95% времени после настройки промптов. Оставшиеся 5% исправлялись одним повторным промптом.

Извлечение памяти. Извлечение фактов в стиле Mem0 каждые 6 шагов работало хорошо. Qwen вытаскивала те же факты, что и Claude (например, "пользователь предпочитает без комментариев, если они не объясняют "почему"") и чисто сохраняла их в Qdrant.

Автопроверка вывода подчиненного агента. Второй экземпляр Qwen, проверяющий код первого, выявлял ~60% багов, которые обнаруживал Claude при проверке того же набора. Менее агрессивно, но всё ещё полезно и бесплатно.

Ad

Где возникли проблемы

Надежность вызова инструментов. Вывод инструментов в JSON у Qwen3.6 имел ~12% ошибок форматирования в 47 задачах. У Claude было ~0.5% на той же нагрузке. Ошибки были не в формате JSON — это были неправильные имена полей, неправильные типы, галлюцинированные сигнатуры инструментов. Использование Outlines или строгого режима вывода уменьшило ошибки, но не устранило их.

Дрейф длинного контекста. После ~14k токенов накопленного контекста сессии Qwen начинала неправильно запоминать решения (например, "вы сказали использовать Postgres", хотя было сказано обратное). Эффективный практический предел — около 12k токенов, после чего требуется агрессивное суммирование и сброс.

Обработка каскадных сбоев. Когда подчиненный агент терпел неудачу, планировщик Claude обычно замечал это и перепланировал. Qwen иногда генерировала последующие шаги в предположении, что подчиненный агент успешно завершил задачу. Три каскадных галлюцинации в 47 запусках — не катастрофично при шлюзовании планов, но было бы без него.

Практические выводы

Мнение разработчика: "Qwen3.6-27B — жизнеспособный слой рассуждений для локальных мультиагентных систем уже сегодня. Это НЕ жизнеспособный слой исполнения." Если вы создаете локальные агенты, вам нужно:

  1. Принудительное структурирование вывода на границе вызова инструментов (Outlines, lm-format-enforcer или режим грамматики вашего движка инференса)
  2. Шлюзование подтверждения плана, чтобы 12% ошибок форматирования никогда не доходили до реальной записи файлов
  3. Логика повторного планирования при сбое — самой модели нельзя доверять обработку каскадных сбоев

Разрыв в 12% ошибок вызова инструментов — вот метрика, за которой стоит следить. Когда Qwen3.6 или следующая локальная модель достигнет ~2% по этой метрике, необходимость облачных рассуждений в циклах агентов значительно ослабнет.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Смотрите также

Инструмент с открытым исходным кодом для создания курируемых ИИ лент Reddit с использованием Cloudflare, Supabase и Vercel.
Инструменты

Инструмент с открытым исходным кодом для создания курируемых ИИ лент Reddit с использованием Cloudflare, Supabase и Vercel.

Разработчик открыл исходный код самодостаточного инструмента, который фильтрует Reddit для поиска качественных постов об AI-разработке, используя Cloudflare Workers для cron-задач и прокси, Supabase для хранения данных и Vercel для фронтенда. Инструмент включает оценку вовлеченности, опциональные LLM-резюме и стоит $1-2 в месяц за AI-обработку.

OpenClawRadar
Многомодельный совет по рабочим процессам для ИИ-агентов программирования
Инструменты

Многомодельный совет по рабочим процессам для ИИ-агентов программирования

Разработчик создал веб-инструмент, который выполняет задачи программирования через три модели ИИ — GPT-4o в роли архитектора, Claude в роли скептика и Gemini в роли синтезатора — перед передачей их агентам кодирования. Инструмент генерирует файл PLAN.md с явными ограничениями и требует от пользователей предоставления собственных API-ключей.

OpenClawRadar
Разработчик создает MCP-сервер для интеграции Claude с WhatsApp, делится трудностями
Инструменты

Разработчик создает MCP-сервер для интеграции Claude с WhatsApp, делится трудностями

Разработчик создал MCP-сервер, чтобы дать Claude доступ к реальным перепискам в WhatsApp, обнаружив, что управление контекстом беседы оказалось сложнее, чем ожидалось, и потребовало базы данных для отслеживания разговоров.

OpenClawRadar
Орчино: Локальная система оркестрации мультиагентов для Windows с параллельной автоматизацией браузера и пользовательского интерфейса
Инструменты

Орчино: Локальная система оркестрации мультиагентов для Windows с параллельной автоматизацией браузера и пользовательского интерфейса

Orchino — это локальная система оркестрации мультиагентов для Windows, которая выполняет параллельные задачи в браузере и Windows без захвата пользовательского интерфейса. Демонстрация показывает, как 4 агента выполняют задачу «Найти наушники Sony на Flipkart и Amazon, отправить результаты по email, сохранить в Блокнот» за 29,5 секунд благодаря истинно параллельному выполнению.

OpenClawRadar