Тестирование локального Qwen 3.6 27B в качестве соагента-валидатора Codex

✍️ OpenClawRadar📅 Опубликовано: 4 мая 2026 г.🔗 Source
Тестирование локального Qwen 3.6 27B в качестве соагента-валидатора Codex
Ad

Разработчик на r/LocalLLaMA запускает локальную модель Qwen параллельно с OpenAI Codex в качестве валидатора и оппонента, и создал небольшой воспроизводимый набор тестов, чтобы определить, какие профили квантования GGUF лучше всего подходят для этой роли. Рабочий процесс: Codex занимается основной работой с репозиторием; локальный Qwen оспаривает план, проверяет на избыточность, пропущенные жёсткие указания, проблемы с UI/дизайном, ошибочные предположения и упущения длинного контекста. Автор проверяет каждое взаимодействие перед выполнением.

Настройка набора тестов

Набор тестирует профили Qwen 3.6 27B GGUF через llama.cpp, включая варианты Bartowski и Unsloth с разными размерами контекста и форматами кэша KV (q8, f16). Основное внимание уделяется реальным ошибкам: пропущенные указания, плохое поведение при оспаривании, избыточность, оценка UI и упущения длинного контекста.

Ключевые выводы

  • Лучшие по производительности профили в этом наборе: bartowski-128k-f16, bartowski-128k-q8 и unsloth-128k-q8. Все три показали одинаковую точность.
  • Кэш KV q8 не показал измеримой потери точности в этом конкретном наборе.
  • Размер контекста оказался важнее формата KV (f16 vs q8) для данного рабочего процесса. Профили с 65k не справлялись, когда требовалось более 65k токенов.
  • unsloth-128k-f16 загружался, но испытывал нехватку памяти/пропускной способности на задачах с длинным контекстом на RTX 5090.
Ad

Практические наблюдения

Автор сообщает, что Qwen чрезвычайно хорошо выявляет скрытые обходные пути, избыточность и сокращения пути реализации в Codex. Для задач, связанных с UI, Qwen берёт на себя инициативу в дизайне, пока Codex реализует. Роли меняются: Qwen оспаривает план, а человек проверяет перед каждым этапом.

Ресурсы

📖 Читать полный источник: r/LocalLLaMA

Ad

👀 Смотрите также

Стирлинг-8B: Интерпретируемая языковая модель с атрибуцией на уровне токенов
Инструменты

Стирлинг-8B: Интерпретируемая языковая модель с атрибуцией на уровне токенов

Guide Labs выпустила Steerling-8B — языковую модель с 8 миллиардами параметров, обученную на 1,35 триллиона токенов, которая может отслеживать любой сгенерированный токен до исходного контекста, понятных человеку концепций и источников обучающих данных. Модель демонстрирует конкурентоспособную производительность по сравнению с моделями, обученными на 2–7× большем объёме данных.

OpenClawRadar
Приложение Claude Desktop App с функцией Cowork позволяет осуществлять взаимодействие между ИИ через общие документы Google Docs.
Инструменты

Приложение Claude Desktop App с функцией Cowork позволяет осуществлять взаимодействие между ИИ через общие документы Google Docs.

Пользователи успешно реализовали общение между экземплярами Claude с помощью новой функции совместной работы в десктопном приложении, где два ИИ-агента читали и писали в общий Google Doc в структурированном диалоге из пяти обменов репликами.

OpenClawRadar
Плагин OpenClaw Agent Relay исправляет доставку сообщений в Telegram в многокомпонентных системах.
Инструменты

Плагин OpenClaw Agent Relay исправляет доставку сообщений в Telegram в многокомпонентных системах.

Плагин openclaw-agent-relay решает постоянную проблему, когда ответы sessions_send отправляются в webchat вместо Telegram, используя WebSocket RPC шлюза для запуска ходов агента с deliver:true, устраняя необходимость в обходных решениях, таких как явные инструменты сообщений или шаги announce.

OpenClawRadar
ClawCut: Python-прокси, который делает небольшие локальные LLM пригодными для использования с OpenClaw
Инструменты

ClawCut: Python-прокси, который делает небольшие локальные LLM пригодными для использования с OpenClaw

ClawCut — это прокси-сервер на Python Flask, который решает распространённые проблемы при подключении локальных моделей 7B/14B к OpenClaw, включая отравление контекста, бесконечные циклы и сбои в выводе cron-задач. Он реализует динамическую амнезию во время вызовов инструментов и автоматическую доставку для запланированных задач.

OpenClawRadar