Тестирование локального Qwen 3.6 27B в качестве соагента-валидатора Codex

Разработчик на r/LocalLLaMA запускает локальную модель Qwen параллельно с OpenAI Codex в качестве валидатора и оппонента, и создал небольшой воспроизводимый набор тестов, чтобы определить, какие профили квантования GGUF лучше всего подходят для этой роли. Рабочий процесс: Codex занимается основной работой с репозиторием; локальный Qwen оспаривает план, проверяет на избыточность, пропущенные жёсткие указания, проблемы с UI/дизайном, ошибочные предположения и упущения длинного контекста. Автор проверяет каждое взаимодействие перед выполнением.
Настройка набора тестов
Набор тестирует профили Qwen 3.6 27B GGUF через llama.cpp, включая варианты Bartowski и Unsloth с разными размерами контекста и форматами кэша KV (q8, f16). Основное внимание уделяется реальным ошибкам: пропущенные указания, плохое поведение при оспаривании, избыточность, оценка UI и упущения длинного контекста.
Ключевые выводы
- Лучшие по производительности профили в этом наборе:
bartowski-128k-f16,bartowski-128k-q8иunsloth-128k-q8. Все три показали одинаковую точность. - Кэш KV q8 не показал измеримой потери точности в этом конкретном наборе.
- Размер контекста оказался важнее формата KV (f16 vs q8) для данного рабочего процесса. Профили с 65k не справлялись, когда требовалось более 65k токенов.
unsloth-128k-f16загружался, но испытывал нехватку памяти/пропускной способности на задачах с длинным контекстом на RTX 5090.
Практические наблюдения
Автор сообщает, что Qwen чрезвычайно хорошо выявляет скрытые обходные пути, избыточность и сокращения пути реализации в Codex. Для задач, связанных с UI, Qwen берёт на себя инициативу в дизайне, пока Codex реализует. Роли меняются: Qwen оспаривает план, а человек проверяет перед каждым этапом.
Ресурсы
- Страница проекта: https://robert896r1.github.io/qwen-realworld-accuracy-evals/
- Репозиторий: https://github.com/robert896r1/qwen-realworld-accuracy-evals
📖 Читать полный источник: r/LocalLLaMA
👀 Смотрите также

Стирлинг-8B: Интерпретируемая языковая модель с атрибуцией на уровне токенов
Guide Labs выпустила Steerling-8B — языковую модель с 8 миллиардами параметров, обученную на 1,35 триллиона токенов, которая может отслеживать любой сгенерированный токен до исходного контекста, понятных человеку концепций и источников обучающих данных. Модель демонстрирует конкурентоспособную производительность по сравнению с моделями, обученными на 2–7× большем объёме данных.

Приложение Claude Desktop App с функцией Cowork позволяет осуществлять взаимодействие между ИИ через общие документы Google Docs.
Пользователи успешно реализовали общение между экземплярами Claude с помощью новой функции совместной работы в десктопном приложении, где два ИИ-агента читали и писали в общий Google Doc в структурированном диалоге из пяти обменов репликами.

Плагин OpenClaw Agent Relay исправляет доставку сообщений в Telegram в многокомпонентных системах.
Плагин openclaw-agent-relay решает постоянную проблему, когда ответы sessions_send отправляются в webchat вместо Telegram, используя WebSocket RPC шлюза для запуска ходов агента с deliver:true, устраняя необходимость в обходных решениях, таких как явные инструменты сообщений или шаги announce.

ClawCut: Python-прокси, который делает небольшие локальные LLM пригодными для использования с OpenClaw
ClawCut — это прокси-сервер на Python Flask, который решает распространённые проблемы при подключении локальных моделей 7B/14B к OpenClaw, включая отравление контекста, бесконечные циклы и сбои в выводе cron-задач. Он реализует динамическую амнезию во время вызовов инструментов и автоматическую доставку для запланированных задач.