Qwen 3.6-35B: f16 vs q8_0 vs Turbo3 vs Turbo4 en M5 Max hasta 1M

Un usuario de Reddit realizó un barrido de profundidad en Qwen 3.6-35B-A3B Q8 usando el fork TurboQuant Metal de llama.cpp de TheTom (GitHub: TheTom/llama-cpp-turboquant, rama feature/turboquant-kv-cache) en una MacBook Pro M5 Max con 128 GB de memoria unificada. Probaron cuatro tipos de caché KV: f16, q8_0, turbo3 (3 bits) y turbo4 (4 bits), K y V simétricos, con flash-attn activado y mlock activado, desde 0 hasta 1M tokens de contexto.

Hardware y compilación

M5 Max, 128 GB de memoria unificada. Compilado con cmake -B build -DGGML_METAL=ON. Usaron llama-bench, 3 repeticiones por celda, flash-attn activado, mlock activado. 8 horas de tiempo real durante la noche.

Rendimiento de generación (tok/s)

Profundidad	f16	q8_0	turbo3	turbo4
0	89.4	87.4	79.5	79.7
8K	84.2	79.2	72.2	71.2
32K	72.6	67.8	61.5	61.8
128K	44.4	40.7	36.0	37.7
256K	OOM	26.6	22.9	25.5
512K	OOM	OOM	13.3	16.0
1M	OOM	OOM	6.5	OOM

Rendimiento de procesamiento de prompt (tok/s)

Profundidad	f16	q8_0	turbo3	turbo4
0	2962	2948	2904	2854
8K	2098	1623	1653	1439
32K	1063	802	784	678
128K	321	245	253	206
256K	OOM	124	128	101
512K	OOM	OOM	66	56
1M	OOM	OOM	30	OOM

Conclusiones clave

A profundidad 0, f16 lidera por poco en prefill; turbo3 es ~10% más lento en decodificación.
A 128K, el prefill de turbo3 (253 tok/s) iguala a q8_0 (245 tok/s) — el caché más pequeño reduce la presión del ancho de banda.
A 256K, turbo3 gana en prefill +27% sobre turbo4 (128 vs 101), pero turbo4 gana en decodificación +11% (25.5 vs 22.9). A 512K, la brecha de decodificación se amplía a +20% (turbo4 16.0 vs turbo3 13.3).
turbo3 es el único tipo de caché que cabe en contexto de 1M (6.5 tok/s de decodificación). Memoria a 1M: ~89 GB (37 GB de pesos, ~52 GB de caché KV).

Recomendaciones según la carga de trabajo

Agentes de codificación (contexto profundo, muchos tokens generados): turbo4
RAG / QA por lotes (prefill pesado, respuestas cortas): turbo3
Contexto de 1M: solo turbo3
Interactivo corto (<32K): f16 si cabe, si no q8_0

Advertencias

Esto es un solo M5 Max. Los puntos de cruce probablemente cambien con el ancho de banda de memoria y los núcleos de GPU. Solo se probó K/V simétrico. Combinaciones asimétricas (por ejemplo, -ctk q8_0 -ctv turbo4) no se evaluaron. El fork de TheTom es de nivel de investigación, no está integrado en la rama principal de llama.cpp.

📖 Lee la fuente completa: r/LocalLLaMA

Bench de caché KV de Qwen 3.6-35B-A3B: f16 vs q8_0 vs Turbo3 vs Turbo4 en M5 Max hasta 1M de contexto

Hardware y compilación

Rendimiento de generación (tok/s)

Rendimiento de procesamiento de prompt (tok/s)

Conclusiones clave

Recomendaciones según la carga de trabajo

Advertencias

👀 Ver también

Synthetic anuncia una importante reestructuración de precios con cambios significativos en los límites de tasas.

Anthropic adquiere Stainless por más de $300M — ahora posee el generador de servidores MCP dominante

Claude Code v2.1.74 Actualizaciones del Prompt del Sistema: Reglas de Seguridad, Selección de Memoria y Nuevas Habilidades

La Aplicación de Escritorio de Claude Descarga Silenciosamente un Archivo de 13 GB en Cada Inicio Sin Opción de Exclusión