Avaliando Qwen 3.6 27B como Co-Agente Validador de Codex

Um desenvolvedor no r/LocalLLaMA tem executado um modelo Qwen local junto com o Codex da OpenAI como validador e desafiante, e construiu um pequeno conjunto de avaliação reproduzível para quantificar quais perfis de quantização GGUF funcionam melhor nesse papel. O fluxo de trabalho: Codex cuida do trabalho principal no repositório; Qwen local desafia o plano, verifica construção excessiva, diretivas difíceis perdidas, problemas de UI/design, suposições ruins e falhas de contexto longo. O autor revisa cada interação antes de prosseguir.

Configuração do conjunto de avaliação

O conjunto testa perfis GGUF do Qwen 3.6 27B através do llama.cpp, incluindo variantes Bartowski e Unsloth em diferentes tamanhos de contexto e formatos de cache KV (q8, f16). O foco está em falhas do mundo real: diretivas perdidas, mau comportamento de desafio, construção excessiva, julgamento de UI e falhas de contexto longo.

Principais descobertas

Os perfis com melhor desempenho neste conjunto foram: bartowski-128k-f16, bartowski-128k-q8 e unsloth-128k-q8. Todos os três empataram em precisão.
O cache KV q8 não mostrou perda de precisão mensurável neste conjunto específico.
O tamanho do contexto foi mais importante que KV f16 vs q8 para este fluxo de trabalho. Perfis de 65k falharam quando o conjunto exigia >65k tokens.
unsloth-128k-f16 carregou, mas enfrentou pressão de memória/throughput em casos de contexto longo em uma RTX 5090.

Observações práticas

O autor relata que Qwen é extremamente bom em capturar bypasses silenciosos, construção excessiva e atalhos de codificação até a conclusão no Codex. Para tarefas relacionadas a UI, Qwen assume a liderança no design enquanto Codex implementa. Os papéis se invertem: Qwen desafia o plano, e o humano revisa antes de cada etapa.