Qwen3.6-27B как локальный слой рассуждений: результаты двухнедельного тестирования мультиагентной системы

Разработчик заменил Claude на Qwen3.6-27B в мультиагентном оркестраторе на две недели, запущенном полностью на одной RTX 3090. Цель была простой: проверить, может ли локальная модель служить слоем рассуждений — циклом лидер/менеджер/подчиненный агент — в реальных рабочих процессах кодирования. Результаты дают конкретные цифры для тех, кто задумывается о сокращении облачных расходов.
Настройка и базовый уровень
- Оборудование: RTX 3090, 24 ГБ видеопамяти
- Модель: Qwen3.6-27B в квантовании Q6_K (~22 ГБ на GPU), эффективный контекст 32k
- Движок инференса: Ollama
- Оркестратор: Мультиагентная система со структурированными JSON-планами, модальным окном подтверждения плана, автоматической проверкой после завершения подчиненного агента
- Нагрузка: 47 многошаговых рабочих процессов в двух реальных репозиториях
Что сработало (слой рассуждений)
Генерация планов. Qwen3.6 генерировала многошаговые планы примерно так же хорошо, как Claude на этих задачах. Немного более консервативна — меньше несанкционированных предложений по рефакторингу — но связно и валидно по схеме ~95% времени после настройки промптов. Оставшиеся 5% исправлялись одним повторным промптом.
Извлечение памяти. Извлечение фактов в стиле Mem0 каждые 6 шагов работало хорошо. Qwen вытаскивала те же факты, что и Claude (например, "пользователь предпочитает без комментариев, если они не объясняют "почему"") и чисто сохраняла их в Qdrant.
Автопроверка вывода подчиненного агента. Второй экземпляр Qwen, проверяющий код первого, выявлял ~60% багов, которые обнаруживал Claude при проверке того же набора. Менее агрессивно, но всё ещё полезно и бесплатно.
Где возникли проблемы
Надежность вызова инструментов. Вывод инструментов в JSON у Qwen3.6 имел ~12% ошибок форматирования в 47 задачах. У Claude было ~0.5% на той же нагрузке. Ошибки были не в формате JSON — это были неправильные имена полей, неправильные типы, галлюцинированные сигнатуры инструментов. Использование Outlines или строгого режима вывода уменьшило ошибки, но не устранило их.
Дрейф длинного контекста. После ~14k токенов накопленного контекста сессии Qwen начинала неправильно запоминать решения (например, "вы сказали использовать Postgres", хотя было сказано обратное). Эффективный практический предел — около 12k токенов, после чего требуется агрессивное суммирование и сброс.
Обработка каскадных сбоев. Когда подчиненный агент терпел неудачу, планировщик Claude обычно замечал это и перепланировал. Qwen иногда генерировала последующие шаги в предположении, что подчиненный агент успешно завершил задачу. Три каскадных галлюцинации в 47 запусках — не катастрофично при шлюзовании планов, но было бы без него.
Практические выводы
Мнение разработчика: "Qwen3.6-27B — жизнеспособный слой рассуждений для локальных мультиагентных систем уже сегодня. Это НЕ жизнеспособный слой исполнения." Если вы создаете локальные агенты, вам нужно:
- Принудительное структурирование вывода на границе вызова инструментов (Outlines, lm-format-enforcer или режим грамматики вашего движка инференса)
- Шлюзование подтверждения плана, чтобы 12% ошибок форматирования никогда не доходили до реальной записи файлов
- Логика повторного планирования при сбое — самой модели нельзя доверять обработку каскадных сбоев
Разрыв в 12% ошибок вызова инструментов — вот метрика, за которой стоит следить. Когда Qwen3.6 или следующая локальная модель достигнет ~2% по этой метрике, необходимость облачных рассуждений в циклах агентов значительно ослабнет.
📖 Read the full source: r/LocalLLaMA
👀 Смотрите также

Инструмент с открытым исходным кодом для создания курируемых ИИ лент Reddit с использованием Cloudflare, Supabase и Vercel.
Разработчик открыл исходный код самодостаточного инструмента, который фильтрует Reddit для поиска качественных постов об AI-разработке, используя Cloudflare Workers для cron-задач и прокси, Supabase для хранения данных и Vercel для фронтенда. Инструмент включает оценку вовлеченности, опциональные LLM-резюме и стоит $1-2 в месяц за AI-обработку.

Многомодельный совет по рабочим процессам для ИИ-агентов программирования
Разработчик создал веб-инструмент, который выполняет задачи программирования через три модели ИИ — GPT-4o в роли архитектора, Claude в роли скептика и Gemini в роли синтезатора — перед передачей их агентам кодирования. Инструмент генерирует файл PLAN.md с явными ограничениями и требует от пользователей предоставления собственных API-ключей.

Разработчик создает MCP-сервер для интеграции Claude с WhatsApp, делится трудностями
Разработчик создал MCP-сервер, чтобы дать Claude доступ к реальным перепискам в WhatsApp, обнаружив, что управление контекстом беседы оказалось сложнее, чем ожидалось, и потребовало базы данных для отслеживания разговоров.

Орчино: Локальная система оркестрации мультиагентов для Windows с параллельной автоматизацией браузера и пользовательского интерфейса
Orchino — это локальная система оркестрации мультиагентов для Windows, которая выполняет параллельные задачи в браузере и Windows без захвата пользовательского интерфейса. Демонстрация показывает, как 4 агента выполняют задачу «Найти наушники Sony на Flipkart и Amazon, отправить результаты по email, сохранить в Блокнот» за 29,5 секунд благодаря истинно параллельному выполнению.