Qwen 3.6 27B en MacBook Pro M2: Rendimiento y cuello de botella

Un desarrollador en r/LocalLLaMA probó Qwen 3.6 27B (quant IQ4_XS unsloth) en un MacBook Pro M2 con 32 GB de RAM. Como era de esperar, el equipo está por debajo de las especificaciones para un modelo denso de 27B, pero el informe proporciona cifras concretas y una visión realista del rendimiento y la calidad de salida.

Comando y configuración

El modelo se sirvió con llama-server usando el siguiente comando:

llama-server -m ~/models/unsloth/Qwen3.6-27B-IQ4_XS.gguf --mmproj ~/models/unsloth/Qwen3.6-27B-mmproj-BF16.gguf -c 131072 --batch-size 256 -ngl 99 -np 1 --host 127.0.0.1 --port 8899 -ctk q8_0 -ctv q8_0 --spec-type ngram-mod --spec-ngram-size-n 24 --draft-min 12 --draft-max 48

Opciones notables: un solo proceso (-np 1) para evitar sobrecargar la GPU, decodificación especulativa con ngram-mod y una ventana de contexto de 131072 tokens.

Desglose de rendimiento

Velocidades iniciales: 80 t/s de procesamiento de prompt, 7.9 t/s de generación de tokens. Con 52.000 tokens de contexto, el rendimiento cayó a 4 t/s de procesamiento de prompt —lo que el autor confirma que no es un error tipográfico— y 3.1 t/s de generación de tokens. La presión de memoria nunca entró en zona roja, lo que indica que el cuello de botella es el ancho de banda de memoria, no el intercambio.

Decodificación especulativa no efectiva

El informante habilitó la decodificación especulativa ngram-mod pero no vio beneficios reales. Los registros mostraban:

accept: low acceptance streak (3) – resetting ngram_mod ... draft acceptance rate = 1.00000 ( 2 accepted / 2 generated)

El modelo se reinicia constantemente debido a pocas coincidencias de n-gramas; la aparente tasa de aceptación del 100% es un artefacto de tamaños de muestra pequeños. El autor concluye que modelos densos como este no se repiten lo suficiente para que el enfoque ngram-mod funcione bien.

Calidad del código

A pesar de la lentitud, el código generado por Qwen 3.6 27B fue calificado como excelente. Analizó un código base significativo sin necesidad de indicaciones adicionales más allá de la tarea inicial y superó en calidad al modelo Qwen 35B A3B (MoE). El autor compara la salida con lo que se esperaría de un Claude Sonnet autogestionado y señala que incluso Claude Opus 4.7 quedó impresionado.

Conclusiones clave

El ancho de banda de memoria domina los modelos densos: En Apple Silicon, la generación de tokens se redujo a la mitad a medida que crecía el contexto. Incluso sin intercambio, la limitación del ancho de banda acabó con el rendimiento.
Un solo proceso es el camino a seguir: Ejecutar tareas de agente concurrentes en este hardware no ofrece ninguna ventaja, solo cola serial.
La decodificación especulativa depende del modelo: Ngram-mod no ayudó aquí; la baja repetitividad del modelo impidió coincidencias de borrador.

El autor planea probar Qwen 3.6 27B en una GPU en la nube con especificaciones comparables a la R9700 (precio actual ~$1,400 en Amazon, más alto en eBay) para tener una verdadera idea de su capacidad en sus propias tareas de programación.

📖 Lea la fuente completa: r/LocalLLaMA

Informe de campo: Qwen 3.6 27B en una MacBook Pro M2 (32 GB) – Lento doloroso pero salida inteligente

Comando y configuración

Desglose de rendimiento

Decodificación especulativa no efectiva

Calidad del código

Conclusiones clave

👀 Ver también

Cómo un no programador creó un flujo de trabajo reutilizable de Claude para el marketing de contenido de fundadores

Sí Flujo/No Flujo: Una Técnica Sencilla para Reducir la Alucinación de Contexto en Sesiones de Programación con IA

Por qué la mayoría de los fallos en los pipelines de Claude se deben a los prompts, no a los modelos, y cómo solucionarlo con habilidades

Ejecutando MiniMax M2.7 Q8_0 128K en 2x3090 con descarga de CPU: benchmarks y configuración del mundo real