Avaliando localmente Qwen 3.6 27B como co-agente validador de Codex

Um desenvolvedor no r/LocalLLaMA tem executado um modelo Qwen local junto com o Codex da OpenAI como validador e desafiante, e construiu um pequeno conjunto de avaliação reproduzível para quantificar quais perfis de quantização GGUF funcionam melhor nesse papel. O fluxo de trabalho: Codex cuida do trabalho principal no repositório; Qwen local desafia o plano, verifica construção excessiva, diretivas difíceis perdidas, problemas de UI/design, suposições ruins e falhas de contexto longo. O autor revisa cada interação antes de prosseguir.
Configuração do conjunto de avaliação
O conjunto testa perfis GGUF do Qwen 3.6 27B através do llama.cpp, incluindo variantes Bartowski e Unsloth em diferentes tamanhos de contexto e formatos de cache KV (q8, f16). O foco está em falhas do mundo real: diretivas perdidas, mau comportamento de desafio, construção excessiva, julgamento de UI e falhas de contexto longo.
Principais descobertas
- Os perfis com melhor desempenho neste conjunto foram:
bartowski-128k-f16,bartowski-128k-q8eunsloth-128k-q8. Todos os três empataram em precisão. - O cache KV q8 não mostrou perda de precisão mensurável neste conjunto específico.
- O tamanho do contexto foi mais importante que KV f16 vs q8 para este fluxo de trabalho. Perfis de 65k falharam quando o conjunto exigia >65k tokens.
unsloth-128k-f16carregou, mas enfrentou pressão de memória/throughput em casos de contexto longo em uma RTX 5090.
Observações práticas
O autor relata que Qwen é extremamente bom em capturar bypasses silenciosos, construção excessiva e atalhos de codificação até a conclusão no Codex. Para tarefas relacionadas a UI, Qwen assume a liderança no design enquanto Codex implementa. Os papéis se invertem: Qwen desafia o plano, e o humano revisa antes de cada etapa.
Recursos
- Página do projeto: https://robert896r1.github.io/qwen-realworld-accuracy-evals/
- Repositório: https://github.com/robert896r1/qwen-realworld-accuracy-evals
📖 Leia a fonte original: r/LocalLLaMA
👀 See Also

Categorias de Plugins do OpenClaw e Suas Funções Práticas
Uma postagem no Reddit categoriza os plugins do OpenClaw por função, listando ferramentas específicas como commit-guard para prevenir vazamentos de segredos, dep-audit para verificação de vulnerabilidades e cortex-memory para gerenciamento de memória em camadas.

Utilyze: Monitor de GPU Open-Source que Mede a Taxa de Transferência de Computação Real, Não Apenas Atividade do Kernel
Utilyze faz amostragem de contadores de desempenho de hardware para relatar a taxa de transferência de computação e memória em relação aos limites teóricos, revelando que painéis mostrando 100% de utilização podem ter apenas 1-10% de taxa real.

A ferramenta de automação de fluxo de trabalho Symphony funciona com o Claude Code
Um desenvolvedor conseguiu fazer a especificação do Symphony funcionar com o Claude Code para automatizar fluxos de trabalho de ticket para PR, usando Node/TypeScript inicialmente, mas observando que Elixir pode ser melhor. A ferramenta requer configuração separada de chave de API e faturamento além das assinaturas do Claude.

Revdiff: Visualizador de Diferenciais no Terminal com Anotações Embutidas para Agentes de IA
Revdiff é um revisor de diff TUI construído especificamente para revisar alterações de código geradas por IA sem sair das sessões de terminal. Ele gera anotações estruturadas para stdout que podem ser canalizadas diretamente de volta para agentes de IA como o Claude Code, criando um loop contínuo de revisão.