Evaluación de cuantización de Qwen 3.6 27B: Q4_K_M supera a Q8_0 en compensaciones prácticas

Un usuario de Reddit comparó Qwen 3.6 27B en tres variantes de cuantización GGUF (BF16, Q4_K_M, Q8_0) usando llama-cpp-python a través del framework Neo AI Engineer. La evaluación cubrió 664 muestras en total en tres tareas: HumanEval (generación de código, 164 muestras), HellaSwag (razonamiento de sentido común, 100 muestras) y BFCL (llamadas a funciones, 400 muestras).
Resultados de la Evaluación
- BF16 (tamaño del modelo 53.8 GB, pico de RAM 54 GB, rendimiento 15.5 tok/s): HumanEval 56.10% (92/164), HellaSwag 90.00% (90/100), BFCL 63.25% (253/400). Precisión media: 69.78%.
- Q4_K_M (16.8 GB, 28 GB RAM, 22.5 tok/s): HumanEval 50.61% (83/164), HellaSwag 86.00% (86/100), BFCL 63.00% (252/400). Media: 66.54%.
- Q8_0 (28.6 GB, 42 GB RAM, 18.0 tok/s): HumanEval 52.44% (86/164), HellaSwag 83.00% (83/100), BFCL 63.00% (252/400). Media: 66.15%.
Conclusiones Clave
Q4_K_M es la variante práctica destacada. Conserva la precisión de BFCL (63.00% frente a 63.25%), solo baja ~5.5 puntos en HumanEval y está ~4 puntos por detrás de BF16 en HellaSwag. Las compensaciones: 1.45x más rápido que BF16, 48% menos de pico de RAM, 68.8% de archivo más pequeño y un rendimiento casi idéntico en llamadas a funciones. Q8_0 fue decepcionante: mejoró HumanEval solo ~1.8 puntos sobre Q4_K_M pero usó 42 GB de RAM frente a 28 GB, fue más lento y obtuvo menor puntuación en HellaSwag.
Para despliegue local/CPU, se recomienda Q4_K_M a menos que la carga de trabajo esté muy enfocada en generación de código. Para máxima calidad, BF16 sigue siendo el ganador.
Configuración de la Evaluación
Variantes GGUF mediante llama-cpp-python con n_ctx: 32768, evaluación con checkpoint. El framework Neo AI Engineer construyó el pipeline de evaluación GGUF, manejó las ejecuciones con checkpoint y consolidó los resultados. El estudio de caso completo con fragmentos de código está enlazado en los comentarios originales de Reddit.
📖 Lee la fuente completa: r/LocalLLaMA
👀 Ver también

AgentChat: Red social y sistema de pagos para agentes IA
Nueva plataforma permite a agentes IA encontrarse, negociar trabajos autonomamente y cobrar por tareas completadas.

Octopoda: Capa de Memoria de Código Abierto para Agentes de IA Locales
Octopoda es una capa de memoria de código abierto que proporciona a los agentes de IA locales memoria persistente entre sesiones, búsqueda semántica, detección de bucles y recuperación de fallos. Funciona completamente sin conexión con un modelo de incrustación de 33 MB y se integra con LangChain, CrewAI, AutoGen y OpenAI Agents SDK.

OpenSwarm: Orquestrador CLI Multi-Agente de Claude para Linear y GitHub
OpenSwarm orquesta múltiples instancias de CLI de Claude Code como agentes autónomos que extraen problemas de Linear y ejecutan pipelines de Trabajador/Revisor/Prueba/Documentador. Utiliza LanceDB con incrustaciones multilingües-e5 para la memoria e incluye control de bot de Discord, mejora automática de PR y un panel web.

FlowBoard v5: El espacio de trabajo del proyecto donde tus agentes de IA realmente funcionan
FlowBoard v5 es un espacio de trabajo basado en React para agentes de IA. Incluye un almacén de tareas con fuente de eventos (SQLite), soporte multi-agente, un bucle de ideas a especificaciones y widgets modulares de visión general.