Evaluación de cuantización de Qwen 3.6 27B: Q4_K_M supera a Q8_0 en compensaciones prácticas

Un usuario de Reddit comparó Qwen 3.6 27B en tres variantes de cuantización GGUF (BF16, Q4_K_M, Q8_0) usando llama-cpp-python a través del framework Neo AI Engineer. La evaluación cubrió 664 muestras en total en tres tareas: HumanEval (generación de código, 164 muestras), HellaSwag (razonamiento de sentido común, 100 muestras) y BFCL (llamadas a funciones, 400 muestras).
Resultados de la Evaluación
- BF16 (tamaño del modelo 53.8 GB, pico de RAM 54 GB, rendimiento 15.5 tok/s): HumanEval 56.10% (92/164), HellaSwag 90.00% (90/100), BFCL 63.25% (253/400). Precisión media: 69.78%.
- Q4_K_M (16.8 GB, 28 GB RAM, 22.5 tok/s): HumanEval 50.61% (83/164), HellaSwag 86.00% (86/100), BFCL 63.00% (252/400). Media: 66.54%.
- Q8_0 (28.6 GB, 42 GB RAM, 18.0 tok/s): HumanEval 52.44% (86/164), HellaSwag 83.00% (83/100), BFCL 63.00% (252/400). Media: 66.15%.
Conclusiones Clave
Q4_K_M es la variante práctica destacada. Conserva la precisión de BFCL (63.00% frente a 63.25%), solo baja ~5.5 puntos en HumanEval y está ~4 puntos por detrás de BF16 en HellaSwag. Las compensaciones: 1.45x más rápido que BF16, 48% menos de pico de RAM, 68.8% de archivo más pequeño y un rendimiento casi idéntico en llamadas a funciones. Q8_0 fue decepcionante: mejoró HumanEval solo ~1.8 puntos sobre Q4_K_M pero usó 42 GB de RAM frente a 28 GB, fue más lento y obtuvo menor puntuación en HellaSwag.
Para despliegue local/CPU, se recomienda Q4_K_M a menos que la carga de trabajo esté muy enfocada en generación de código. Para máxima calidad, BF16 sigue siendo el ganador.
Configuración de la Evaluación
Variantes GGUF mediante llama-cpp-python con n_ctx: 32768, evaluación con checkpoint. El framework Neo AI Engineer construyó el pipeline de evaluación GGUF, manejó las ejecuciones con checkpoint y consolidó los resultados. El estudio de caso completo con fragmentos de código está enlazado en los comentarios originales de Reddit.
📖 Lee la fuente completa: r/LocalLLaMA
👀 Ver también

Sovr MCP Proxy agrega una capa de seguridad para prevenir comandos destructivos de LLM.
Un desarrollador creó sovr-mcp-proxy después de que un LLM local casi ejecutó rm -rf en su carpeta personal. La herramienta intercepta comandos antes de su ejecución y bloquea patrones destructivos que incluyen rm -rf, DROP TABLE, curl | sh y chmod 777.

Opendesk: algoritmo MCP + SOM para control de escritorio de IA mediante Claude Code
Opendesk le da a los agentes de IA ojos y manos en tu escritorio mediante un servidor MCP con un algoritmo SOM personalizado. Se integra con Claude Code o cualquier arnés de agente para control de ratón/teclado, aprendizaje, repetición y programación.

Solitario: Infraestructura de Identidad de Código Abierto para Agentes de IA
Solitaire es una infraestructura de identidad de código abierto para agentes de IA que se centra en mejorar cómo los agentes trabajan con los usuarios a lo largo del tiempo, no solo en el recuerdo. Es local-first, agnóstico a modelos y está disponible mediante pip install solitaire-ai.

Habilidad de autocuración de código abierto para agentes de IA que detecta y corrige fallas automáticamente.
Una nueva habilidad de código abierto permite a los agentes de IA detectar automáticamente fallos, diagnosticar causas raíz e implementar correcciones. Incluye un escáner de fallos para crons, subagentes y registros de despliegue, además de una base de datos que aprende de correcciones anteriores.