Realizando pruebas locales de Qwen 3.6 27B como co-agente validador de Codex

Un desarrollador en r/LocalLLaMA ha estado ejecutando un modelo local de Qwen junto con Codex de OpenAI como validador y crítico, y construyó un pequeño conjunto de pruebas reproducible para cuantificar qué perfiles de cuantización GGUF funcionan mejor para este rol. El flujo de trabajo: Codex maneja el trabajo principal del repositorio; el Qwen local critica el plan, verifica sobreconstrucción, directivas ignoradas, problemas de UI/diseño, malas suposiciones y fallos de contexto largo. El autor revisa cada interacción antes de continuar.
Configuración del conjunto de pruebas
El conjunto prueba perfiles GGUF de Qwen 3.6 27B a través de llama.cpp, incluyendo variantes Bartowski y Unsloth en diferentes tamaños de contexto y formatos de caché KV (q8, f16). El enfoque está en fallos del mundo real: directivas ignoradas, mal comportamiento crítico, sobreconstrucción, juicio de UI y fallos de contexto largo.
Hallazgos clave
- Los perfiles con mejor rendimiento en este conjunto fueron:
bartowski-128k-f16,bartowski-128k-q8yunsloth-128k-q8. Los tres empataron en precisión. - La caché KV q8 no mostró pérdida de precisión medible en este conjunto específico.
- El tamaño de contexto importó más que f16 vs q8 KV para este flujo de trabajo. Los perfiles de 65k fallaron cuando el conjunto requería más de 65k tokens.
unsloth-128k-f16se cargó pero encontró presión de memoria/rendimiento en casos de contexto largo en una RTX 5090.
Observaciones prácticas
El autor reporta que Qwen es extremadamente bueno detectando omisiones silenciosas, sobreconstrucción y atajos de codificación en Codex. Para tareas relacionadas con UI, Qwen toma la delantera en diseño mientras Codex implementa. Los roles se invierten: Qwen critica el plan, y el humano revisa antes de cada etapa.
Recursos
- Página del proyecto: https://robert896r1.github.io/qwen-realworld-accuracy-evals/
- Repositorio: https://github.com/robert896r1/qwen-realworld-accuracy-evals
📖 Leer la fuente completa: r/LocalLLaMA
👀 Ver también

Claude Code como Compilador: Un Replanteamiento Práctico para el Desarrollo de IA
Una publicación de Reddit argumenta que Claude Code funciona como un compilador que traduce inglés a software funcional, estableciendo paralelismos con hitos históricos de la informática como el A-0 de Grace Hopper y FORTRAN. El autor describe generar 400 líneas en 6 archivos a partir de una descripción en inglés de 3 párrafos, detectando dos problemas en 25 minutos.

Búsqueda semántica local para conversaciones de IA con fastembed y LanceDB
Un desarrollador indexó localmente 368K mensajes de conversaciones de IA utilizando fastembed para incrustaciones basadas en CPU y LanceDB como almacén vectorial sin servidor, logrando una latencia de búsqueda p50 de 12ms sin claves API.

Murmur: Un daemon Cron de código abierto para automatizar sesiones de código Claude
Murmur es un demonio cron que programa y automatiza sesiones de código de Claude utilizando un archivo HEARTBEAT.md para la configuración.

El Servidor MCP de ZuckerBot Permite que los Agentes de OpenClaw Ejecuten Campañas de Anuncios de Meta
ZuckerBot es un servidor MCP que otorga a los agentes de OpenClaw control directo sobre los anuncios de Meta, permitiéndoles ejecutar ciclos completos de campañas sin intervención humana. Más de 50 agentes únicos ya lo utilizan para extraer anuncios de la competencia, generar segmentación, lanzar campañas y ajustar el rendimiento mediante código.