Qwen 3.6 27B vs Codex: тестирование агента-валидатора

Разработчик на r/LocalLLaMA запускает локальную модель Qwen параллельно с OpenAI Codex в качестве валидатора и оппонента, и создал небольшой воспроизводимый набор тестов, чтобы определить, какие профили квантования GGUF лучше всего подходят для этой роли. Рабочий процесс: Codex занимается основной работой с репозиторием; локальный Qwen оспаривает план, проверяет на избыточность, пропущенные жёсткие указания, проблемы с UI/дизайном, ошибочные предположения и упущения длинного контекста. Автор проверяет каждое взаимодействие перед выполнением.

Настройка набора тестов

Набор тестирует профили Qwen 3.6 27B GGUF через llama.cpp, включая варианты Bartowski и Unsloth с разными размерами контекста и форматами кэша KV (q8, f16). Основное внимание уделяется реальным ошибкам: пропущенные указания, плохое поведение при оспаривании, избыточность, оценка UI и упущения длинного контекста.

Ключевые выводы

Лучшие по производительности профили в этом наборе: bartowski-128k-f16, bartowski-128k-q8 и unsloth-128k-q8. Все три показали одинаковую точность.
Кэш KV q8 не показал измеримой потери точности в этом конкретном наборе.
Размер контекста оказался важнее формата KV (f16 vs q8) для данного рабочего процесса. Профили с 65k не справлялись, когда требовалось более 65k токенов.
unsloth-128k-f16 загружался, но испытывал нехватку памяти/пропускной способности на задачах с длинным контекстом на RTX 5090.

Практические наблюдения

Автор сообщает, что Qwen чрезвычайно хорошо выявляет скрытые обходные пути, избыточность и сокращения пути реализации в Codex. Для задач, связанных с UI, Qwen берёт на себя инициативу в дизайне, пока Codex реализует. Роли меняются: Qwen оспаривает план, а человек проверяет перед каждым этапом.