Qwen 3.6 27B F16: Pacman test passes, 8-bit quants fail

Un desarrollador en r/LocalLLaMA compartió un benchmark práctico de codificación: crear de una sola vez un clon del Pacman en una sola página a partir de un buen prompt, tres intentos, quedarse con el mejor. Qwen 3.6 27B F16 produjo dos juegos casi perfectos, el primer modelo local en lograrlo. Sin embargo, al reducir a cuantificación de 8 bits, los buenos resultados no fueron reproducibles ni siquiera después de cinco intentos, lo que refuerza la afirmación de que la cuantificación de 8 bits no es sin pérdidas para tareas generativas complejas.

Hallazgos técnicos clave del mensaje:

La plantilla de chat es crítica: La plantilla oficial de chat de Qwen está ajustada para vLLM y contiene errores en llama.cpp y otros ejecutores. El autor corrigió errores de forma iterativa y, tras el ajuste fino, el modelo sintió "un nuevo nivel de inteligencia".
La decodificación especulativa MTP varía según la tarea: Para tareas deterministas como la codificación, los tok/s generativos oscilaron entre 8 y 18 tok/s (línea base sin MTP: 6.6 tok/s). Las tareas creativas experimentan menos aceleración.
La elección del harness afecta más la velocidad que la calidad del código: Qwen CLI funcionó sorprendentemente bien, comparable a Claude Code en calidad de salida, pero mucho más rápido porque los prompts adicionales de Claude Code ralentizan los modelos locales. Con un modelo lento como Qwen 3.6 27B a ~6 tok/s, cada prompt adicional añade una latencia dolorosa.
No interfieras con la gestión del contexto: El almacenamiento en caché y la compactación del contexto nativos del modelo funcionan bien. Los plugins o herramientas que manipulan la caché o el contexto confunden al modelo y degradan el rendimiento.
Las llamadas a herramientas y los subagentes funcionan a la perfección después de corregir la plantilla de chat adecuadamente. La compactación del contexto, el uso del shell y los subagentes paralelos funcionan como se espera.

El autor advierte que los resultados dependen en gran medida de la configuración del ejecutor: usa pesos F16, una plantilla de chat corregida y evita harness pesados a menos que tengas inferencia rápida. El resultado completo del Pacman jugable está disponible en guigand.com/pacman.

📖 Lee la fuente completa: r/LocalLLaMA

Qwen 3.6 27B F16 pasa la prueba de codificación de Pacman, pero las cuantizaciones de 8 bits fallan — Lecciones clave sobre plantillas y decodificación especulativa MTP

👀 Ver también

Widget de hardware y extensión de Chrome monitorean los límites de tasa de la API de Claude.

Agente Smith: Un comando para andamiar servidores MCP, habilidades y un pipeline de Ticket a PR para Claude Code

Ninetails Memory Engine V4.5: Cuantización Int8 + Caché LRU Reduce la Memoria MCP Local a 60MB

Models.dev: Base de datos de código abierto de especificaciones, precios y capacidades de modelos de IA