Realizando pruebas locales de Qwen 3.6 27B como co-agente validador de Codex

Un desarrollador en r/LocalLLaMA ha estado ejecutando un modelo local de Qwen junto con Codex de OpenAI como validador y crítico, y construyó un pequeño conjunto de pruebas reproducible para cuantificar qué perfiles de cuantización GGUF funcionan mejor para este rol. El flujo de trabajo: Codex maneja el trabajo principal del repositorio; el Qwen local critica el plan, verifica sobreconstrucción, directivas ignoradas, problemas de UI/diseño, malas suposiciones y fallos de contexto largo. El autor revisa cada interacción antes de continuar.
Configuración del conjunto de pruebas
El conjunto prueba perfiles GGUF de Qwen 3.6 27B a través de llama.cpp, incluyendo variantes Bartowski y Unsloth en diferentes tamaños de contexto y formatos de caché KV (q8, f16). El enfoque está en fallos del mundo real: directivas ignoradas, mal comportamiento crítico, sobreconstrucción, juicio de UI y fallos de contexto largo.
Hallazgos clave
- Los perfiles con mejor rendimiento en este conjunto fueron:
bartowski-128k-f16,bartowski-128k-q8yunsloth-128k-q8. Los tres empataron en precisión. - La caché KV q8 no mostró pérdida de precisión medible en este conjunto específico.
- El tamaño de contexto importó más que f16 vs q8 KV para este flujo de trabajo. Los perfiles de 65k fallaron cuando el conjunto requería más de 65k tokens.
unsloth-128k-f16se cargó pero encontró presión de memoria/rendimiento en casos de contexto largo en una RTX 5090.
Observaciones prácticas
El autor reporta que Qwen es extremadamente bueno detectando omisiones silenciosas, sobreconstrucción y atajos de codificación en Codex. Para tareas relacionadas con UI, Qwen toma la delantera en diseño mientras Codex implementa. Los roles se invierten: Qwen critica el plan, y el humano revisa antes de cada etapa.
Recursos
- Página del proyecto: https://robert896r1.github.io/qwen-realworld-accuracy-evals/
- Repositorio: https://github.com/robert896r1/qwen-realworld-accuracy-evals
📖 Leer la fuente completa: r/LocalLLaMA
👀 Ver también

Memoria Persistente para Claude: Stack Local con MCP, Recuperación de 39ms, Reducción del 82% de Tokens
Un desarrollador construyó una capa de memoria persistente para Claude utilizando búsqueda vectorial local (Qdrant + Qwen3) e integración MCP, logrando una reducción del 82% en tokens, recuperación en 39ms en ruta caliente y cristalización de sesiones mediante nodos L4.

CodeTalk: Herramienta de código abierto añade reflexiones habladas a la CLI de Claude Code
CodeTalk es una herramienta de Python que añade observaciones habladas a las respuestas de Claude Code CLI utilizando Microsoft edge-tts. Extrae el texto incrustado por Claude y lo reproduce a través de los altavoces con TTS neuronal de sonido natural.

Cubierta de Rueda: Mensajería Bidireccional Persistente entre CLI y JavaScript del Navegador mediante CDP
Hubcap Bridge es una nueva función en la herramienta Hubcap CLI que crea un canal de mensajes bidireccional persistente entre procesos locales y JavaScript ejecutándose en páginas del navegador a través del Protocolo Chrome DevTools. Permite que las habilidades de Claude Code interactúen con aplicaciones web mediante sus APIs internas de JavaScript sin requerir acceso a APIs públicas.

Cerebro: Un Sistema de Memoria de Errores Persistente para Claude Code mediante MCP
Brain es un servidor MCP de código abierto que le proporciona a Claude Code memoria persistente y entre proyectos para errores y soluciones. Captura el contexto de los errores, sugiere correcciones probadas con puntuaciones de confianza y construye una red de sinapsis ponderada que conecta errores, soluciones y módulos de código en todos los proyectos.