Evaluación de cuantización de Qwen 3.6 27B: Q4_K_M supera a Q8_0 en compensaciones prácticas

✍️ OpenClawRadar📅 Publicado: 28 de abril de 2026🔗 Source
Evaluación de cuantización de Qwen 3.6 27B: Q4_K_M supera a Q8_0 en compensaciones prácticas
Ad

Un usuario de Reddit comparó Qwen 3.6 27B en tres variantes de cuantización GGUF (BF16, Q4_K_M, Q8_0) usando llama-cpp-python a través del framework Neo AI Engineer. La evaluación cubrió 664 muestras en total en tres tareas: HumanEval (generación de código, 164 muestras), HellaSwag (razonamiento de sentido común, 100 muestras) y BFCL (llamadas a funciones, 400 muestras).

Resultados de la Evaluación

  • BF16 (tamaño del modelo 53.8 GB, pico de RAM 54 GB, rendimiento 15.5 tok/s): HumanEval 56.10% (92/164), HellaSwag 90.00% (90/100), BFCL 63.25% (253/400). Precisión media: 69.78%.
  • Q4_K_M (16.8 GB, 28 GB RAM, 22.5 tok/s): HumanEval 50.61% (83/164), HellaSwag 86.00% (86/100), BFCL 63.00% (252/400). Media: 66.54%.
  • Q8_0 (28.6 GB, 42 GB RAM, 18.0 tok/s): HumanEval 52.44% (86/164), HellaSwag 83.00% (83/100), BFCL 63.00% (252/400). Media: 66.15%.
Ad

Conclusiones Clave

Q4_K_M es la variante práctica destacada. Conserva la precisión de BFCL (63.00% frente a 63.25%), solo baja ~5.5 puntos en HumanEval y está ~4 puntos por detrás de BF16 en HellaSwag. Las compensaciones: 1.45x más rápido que BF16, 48% menos de pico de RAM, 68.8% de archivo más pequeño y un rendimiento casi idéntico en llamadas a funciones. Q8_0 fue decepcionante: mejoró HumanEval solo ~1.8 puntos sobre Q4_K_M pero usó 42 GB de RAM frente a 28 GB, fue más lento y obtuvo menor puntuación en HellaSwag.

Para despliegue local/CPU, se recomienda Q4_K_M a menos que la carga de trabajo esté muy enfocada en generación de código. Para máxima calidad, BF16 sigue siendo el ganador.

Configuración de la Evaluación

Variantes GGUF mediante llama-cpp-python con n_ctx: 32768, evaluación con checkpoint. El framework Neo AI Engineer construyó el pipeline de evaluación GGUF, manejó las ejecuciones con checkpoint y consolidó los resultados. El estudio de caso completo con fragmentos de código está enlazado en los comentarios originales de Reddit.

📖 Lee la fuente completa: r/LocalLLaMA

Ad

👀 Ver también