Qwen 3.6 27B F16 pasa la prueba de codificación de Pacman, pero las cuantizaciones de 8 bits fallan — Lecciones clave sobre plantillas y decodificación especulativa MTP

Un desarrollador en r/LocalLLaMA compartió un benchmark práctico de codificación: crear de una sola vez un clon del Pacman en una sola página a partir de un buen prompt, tres intentos, quedarse con el mejor. Qwen 3.6 27B F16 produjo dos juegos casi perfectos, el primer modelo local en lograrlo. Sin embargo, al reducir a cuantificación de 8 bits, los buenos resultados no fueron reproducibles ni siquiera después de cinco intentos, lo que refuerza la afirmación de que la cuantificación de 8 bits no es sin pérdidas para tareas generativas complejas.
Hallazgos técnicos clave del mensaje:
- La plantilla de chat es crítica: La plantilla oficial de chat de Qwen está ajustada para vLLM y contiene errores en llama.cpp y otros ejecutores. El autor corrigió errores de forma iterativa y, tras el ajuste fino, el modelo sintió "un nuevo nivel de inteligencia".
- La decodificación especulativa MTP varía según la tarea: Para tareas deterministas como la codificación, los tok/s generativos oscilaron entre 8 y 18 tok/s (línea base sin MTP: 6.6 tok/s). Las tareas creativas experimentan menos aceleración.
- La elección del harness afecta más la velocidad que la calidad del código: Qwen CLI funcionó sorprendentemente bien, comparable a Claude Code en calidad de salida, pero mucho más rápido porque los prompts adicionales de Claude Code ralentizan los modelos locales. Con un modelo lento como Qwen 3.6 27B a ~6 tok/s, cada prompt adicional añade una latencia dolorosa.
- No interfieras con la gestión del contexto: El almacenamiento en caché y la compactación del contexto nativos del modelo funcionan bien. Los plugins o herramientas que manipulan la caché o el contexto confunden al modelo y degradan el rendimiento.
- Las llamadas a herramientas y los subagentes funcionan a la perfección después de corregir la plantilla de chat adecuadamente. La compactación del contexto, el uso del shell y los subagentes paralelos funcionan como se espera.
El autor advierte que los resultados dependen en gran medida de la configuración del ejecutor: usa pesos F16, una plantilla de chat corregida y evita harness pesados a menos que tengas inferencia rápida. El resultado completo del Pacman jugable está disponible en guigand.com/pacman.
📖 Lee la fuente completa: r/LocalLLaMA
👀 Ver también

IM para Agentes: Sala de chat basada en REST para comunicación entre agentes de IA sin SDKs
Un desarrollador creó IM for Agents, una herramienta que crea salas de chat compartidas donde los agentes de IA se comunican directamente a través de API REST sin SDKs ni archivos de configuración. Los agentes usan un simple prompt para unirse a las salas y pueden negociar APIs, escribir código y verificar el trabajo mientras los humanos observan.

Plataforma de IA de Cloudflare: Capa de Inferencia Unificada para Agentes de IA
La Plataforma de IA de Cloudflare proporciona una única API para acceder a más de 70 modelos de más de 12 proveedores, incluido soporte multimodal para modelos de imagen, video y voz. Permite cambiar entre modelos con modificaciones de una sola línea de código y ofrece monitoreo centralizado de costos con metadatos personalizados.

El Complemento de Pregunta Rápida Automatiza el Desarrollo en Unity con Claude Code
Un desarrollador ha lanzado quick-question, un complemento para macOS de Unity 2021.3+ que automatiza la compilación, las pruebas y la revisión de código entre modelos cuando se utiliza Claude Code. La herramienta incluye 20 comandos de barra diagonal y utiliza un patrón 'Tribunal' donde Codex y Claude revisan mutuamente sus hallazgos.

Audacity MCP Server le da a Claude AI control total de edición de audio
Un desarrollador creó un servidor MCP que conecta Claude AI con Audacity a través de mod-script-pipe, ofreciendo 99 herramientas para comandos de edición de audio en lenguaje natural. La herramienta de código abierto funciona con Claude Desktop, Claude Code o Cursor.