Informe de campo: Qwen 3.6 27B en una MacBook Pro M2 (32 GB) – Lento doloroso pero salida inteligente

Un desarrollador en r/LocalLLaMA probó Qwen 3.6 27B (quant IQ4_XS unsloth) en un MacBook Pro M2 con 32 GB de RAM. Como era de esperar, el equipo está por debajo de las especificaciones para un modelo denso de 27B, pero el informe proporciona cifras concretas y una visión realista del rendimiento y la calidad de salida.
Comando y configuración
El modelo se sirvió con llama-server usando el siguiente comando:
llama-server -m ~/models/unsloth/Qwen3.6-27B-IQ4_XS.gguf --mmproj ~/models/unsloth/Qwen3.6-27B-mmproj-BF16.gguf -c 131072 --batch-size 256 -ngl 99 -np 1 --host 127.0.0.1 --port 8899 -ctk q8_0 -ctv q8_0 --spec-type ngram-mod --spec-ngram-size-n 24 --draft-min 12 --draft-max 48
Opciones notables: un solo proceso (-np 1) para evitar sobrecargar la GPU, decodificación especulativa con ngram-mod y una ventana de contexto de 131072 tokens.
Desglose de rendimiento
Velocidades iniciales: 80 t/s de procesamiento de prompt, 7.9 t/s de generación de tokens. Con 52.000 tokens de contexto, el rendimiento cayó a 4 t/s de procesamiento de prompt —lo que el autor confirma que no es un error tipográfico— y 3.1 t/s de generación de tokens. La presión de memoria nunca entró en zona roja, lo que indica que el cuello de botella es el ancho de banda de memoria, no el intercambio.
Decodificación especulativa no efectiva
El informante habilitó la decodificación especulativa ngram-mod pero no vio beneficios reales. Los registros mostraban:
accept: low acceptance streak (3) – resetting ngram_mod ... draft acceptance rate = 1.00000 ( 2 accepted / 2 generated)
El modelo se reinicia constantemente debido a pocas coincidencias de n-gramas; la aparente tasa de aceptación del 100% es un artefacto de tamaños de muestra pequeños. El autor concluye que modelos densos como este no se repiten lo suficiente para que el enfoque ngram-mod funcione bien.
Calidad del código
A pesar de la lentitud, el código generado por Qwen 3.6 27B fue calificado como excelente. Analizó un código base significativo sin necesidad de indicaciones adicionales más allá de la tarea inicial y superó en calidad al modelo Qwen 35B A3B (MoE). El autor compara la salida con lo que se esperaría de un Claude Sonnet autogestionado y señala que incluso Claude Opus 4.7 quedó impresionado.
Conclusiones clave
- El ancho de banda de memoria domina los modelos densos: En Apple Silicon, la generación de tokens se redujo a la mitad a medida que crecía el contexto. Incluso sin intercambio, la limitación del ancho de banda acabó con el rendimiento.
- Un solo proceso es el camino a seguir: Ejecutar tareas de agente concurrentes en este hardware no ofrece ninguna ventaja, solo cola serial.
- La decodificación especulativa depende del modelo: Ngram-mod no ayudó aquí; la baja repetitividad del modelo impidió coincidencias de borrador.
El autor planea probar Qwen 3.6 27B en una GPU en la nube con especificaciones comparables a la R9700 (precio actual ~$1,400 en Amazon, más alto en eBay) para tener una verdadera idea de su capacidad en sus propias tareas de programación.
📖 Lea la fuente completa: r/LocalLLaMA
👀 Ver también

Mejorando OpenClaw con el Poder de los LLM Locales: Presentando GLM-4.7-Flash.
La integración de GLM-4.7-Flash con OpenClaw está revolucionando la automatización de la IA al permitir un despliegue local sin interrupciones y una ejecución de código sofisticada.

Traducción al español: Solución Alternativa para la Compactación de Claude: Usando un Archivo Handoff.MD
Un usuario de Reddit comparte una solución alternativa para el mensaje de compactación de conversación de Claude: crear un archivo handoff.md detallado que resuma la conversación, luego iniciar una nueva sesión con ese archivo. La publicación incluye pasos específicos para usar ChatGPT para generar indicaciones y gestionar proyectos con instrucciones.

Usuario de Claude Comparte el Prompt 'No Gestiones Mis Sentimientos' para Retroalimentación Técnica Directa
Un usuario de Claude recomienda configurar un prompt específico en las preferencias del usuario para reducir el preámbulo de validación y obtener comentarios técnicos más directos. El prompt le indica a Claude que omita las frases diplomáticas y proporcione críticas directas sobre el trabajo técnico y creativo.

La auditoría de tokens de Claude Code revela costos ocultos por la carga predeterminada de herramientas.
Un desarrollador analizó 926 sesiones de Claude Code y encontró 45,000 tokens cargados al inicio de cada sesión, con 20,000 tokens provenientes de definiciones de esquemas de herramientas del sistema. Habilitar la configuración ENABLE_TOOL_SEARCH redujo el contexto inicial de 45k a 20k tokens, ahorrando 14,000 tokens por turno.