Qwen 3.6 27B vs Codex: Guía de pruebas locales como validador

Un desarrollador en r/LocalLLaMA ha estado ejecutando un modelo local de Qwen junto con Codex de OpenAI como validador y crítico, y construyó un pequeño conjunto de pruebas reproducible para cuantificar qué perfiles de cuantización GGUF funcionan mejor para este rol. El flujo de trabajo: Codex maneja el trabajo principal del repositorio; el Qwen local critica el plan, verifica sobreconstrucción, directivas ignoradas, problemas de UI/diseño, malas suposiciones y fallos de contexto largo. El autor revisa cada interacción antes de continuar.

Configuración del conjunto de pruebas

El conjunto prueba perfiles GGUF de Qwen 3.6 27B a través de llama.cpp, incluyendo variantes Bartowski y Unsloth en diferentes tamaños de contexto y formatos de caché KV (q8, f16). El enfoque está en fallos del mundo real: directivas ignoradas, mal comportamiento crítico, sobreconstrucción, juicio de UI y fallos de contexto largo.

Hallazgos clave

Los perfiles con mejor rendimiento en este conjunto fueron: bartowski-128k-f16, bartowski-128k-q8 y unsloth-128k-q8. Los tres empataron en precisión.
La caché KV q8 no mostró pérdida de precisión medible en este conjunto específico.
El tamaño de contexto importó más que f16 vs q8 KV para este flujo de trabajo. Los perfiles de 65k fallaron cuando el conjunto requería más de 65k tokens.
unsloth-128k-f16 se cargó pero encontró presión de memoria/rendimiento en casos de contexto largo en una RTX 5090.

Observaciones prácticas

El autor reporta que Qwen es extremadamente bueno detectando omisiones silenciosas, sobreconstrucción y atajos de codificación en Codex. Para tareas relacionadas con UI, Qwen toma la delantera en diseño mientras Codex implementa. Los roles se invierten: Qwen critica el plan, y el humano revisa antes de cada etapa.

Recursos

Página del proyecto: https://robert896r1.github.io/qwen-realworld-accuracy-evals/
Repositorio: https://github.com/robert896r1/qwen-realworld-accuracy-evals

📖 Leer la fuente completa: r/LocalLLaMA

Realizando pruebas locales de Qwen 3.6 27B como co-agente validador de Codex

Configuración del conjunto de pruebas

Hallazgos clave

Observaciones prácticas

Recursos

👀 Ver también

Memoria Persistente para Claude: Stack Local con MCP, Recuperación de 39ms, Reducción del 82% de Tokens

CodeTalk: Herramienta de código abierto añade reflexiones habladas a la CLI de Claude Code

Cubierta de Rueda: Mensajería Bidireccional Persistente entre CLI y JavaScript del Navegador mediante CDP

Cerebro: Un Sistema de Memoria de Errores Persistente para Claude Code mediante MCP