331 Modelos GGUF Probados en Mac Mini M4: Solo 11 Destacan

Una evaluación comparativa exhaustiva probó 331 modelos GGUF en un Mac Mini M4 con 16 GB de memoria unificada para identificar opciones viables para implementación local. El proceso de pruebas se ejecutó durante semanas, automatizando la evaluación de modelos para ir más allá de la selección subjetiva.

Hallazgos Clave

31 de los 331 modelos fueron completamente inutilizables en hardware de 16 GB, definidos por un tiempo hasta el primer token (TTFT) > 10 segundos o un rendimiento < 0.1 tokens/segundo. Estos modelos técnicamente se cargan pero experimentan trashing de memoria. Cada modelo denso de 27B+ probado cayó en esta categoría, siendo Qwen3.5-27B-heretic-v2-Q4_K_S el de peor rendimiento con 97 segundos de TTFT y 0.007 tokens/segundo.

Cuando los pesos del modelo más la caché KV superan aproximadamente 14 GB, el rendimiento "se desploma". Los modelos densos por encima de 14B sufren de ancho de banda de memoria limitado en este hardware.

Comparación de Arquitecturas

Los modelos Mixture-of-Experts (MoE) dominan en hardware de 16 GB:

Mediana de tokens/segundo: MoE 20.0 vs Denso 4.4
Mediana de TTFT: MoE 0.66s vs Denso 0.87s
Puntuación máxima de calidad: MoE 50.4 vs Denso 46.2

Los modelos MoE con 1-3B parámetros activos caben en la memoria de la GPU mientras logran una calidad comparable a modelos densos mucho más grandes.

Modelos Pareto-Óptimos

Solo 11 modelos de 331 se sitúan en la frontera de Pareto (ningún otro modelo los supera tanto en velocidad como en calidad):

Ling-mini-2.0 (Q4_K_S, abliterated): 50.3 tok/s, 24.2 calidad
Ling-mini-2.0 (IQ4_NL): 49.8 tok/s, 25.8 calidad
Ling-mini-2.0 (Q3_K_L): 46.3 tok/s, 26.2 calidad
Ling-mini-2.0 (Q3_K_L, abliterated): 46.0 tok/s, 28.3 calidad
Ling-Coder-lite (IQ4_NL): 24.3 tok/s, 29.2 calidad
Ling-Coder-lite (Q4_0): 23.6 tok/s, 31.3 calidad
LFM2-8B-A1B (Q5_K_M): 19.7 tok/s, 44.6 calidad
LFM2-8B-A1B (Q5_K_XL): 18.9 tok/s, 44.6 calidad
LFM2-8B-A1B (Q8_0): 15.1 tok/s, 46.2 calidad
LFM2-8B-A1B (Q8_K_XL): 14.9 tok/s, 47.9 calidad
LFM2-8B-A1B (Q6_K_XL): 13.9 tok/s, 50.4 calidad

Cada modelo Pareto-óptimo es de arquitectura MoE. Todos los demás modelos de los 331 están estrictamente dominados por uno de estos once.

Rendimiento en Contexto y Concurrencia

La escalabilidad de contexto muestra un rendimiento sorprendentemente plano: la relación mediana de tokens/segundo (contexto 4096 vs 1024) es 1.0x. La mayoría de los modelos muestran cero degradación al pasar de 1k a 4k de contexto, con algunos modelos MoE incluso acelerándose a 4k. El límite de ancho de banda de memoria aún no se ha alcanzado a 4k en este hardware.

La concurrencia es una pérdida neta: en concurrencia 2, el rendimiento por solicitud cae a 0.55x (lo ideal sería 1.0x). Dos solicitudes concurrentes compiten por el mismo bus de memoria unificada. La recomendación es ejecutar una solicitud a la vez en hardware de 16 GB.

Recomendaciones Principales

LFM2-8B-A1B-UD-Q6_K_XL (unsloth) - Mejor en general: 50.4 calidad compuesta (la más alta de todos los 331 modelos), 13.9 tokens/segundo, 0.48s TTFT. MoE con 1B parámetros activos - arquitectónicamente ideal para 16 GB.
LFM2-8B-A1B-Q5_K_M (unsloth) - Mejor velocidad entre modelos de calidad: 19.7 tokens/segundo (variante LFM2 más rápida), 44.6 calidad (solo 6 puntos por debajo del mejor). Cuantización más pequeña = mayor margen para contextos más largos.
LFM2-8B-A1B-UD-Q8_K_XL (unsloth) - Opción de rendimiento equilibrado.

📖 Read the full source: r/LocalLLaMA

Resultados de Referencia: 331 Modelos GGUF Probados en Mac Mini M4 de 16GB

Hallazgos Clave

Comparación de Arquitecturas

Modelos Pareto-Óptimos

Rendimiento en Contexto y Concurrencia

Recomendaciones Principales

👀 Ver también

AgentMeet: Una Herramienta para que los Agentes de IA Compartan Contexto a través de Salas Basadas en Navegador

ClearSpec: Un Generador de Especificaciones para Reducir Alucinaciones en el Código de Claude

ClawControl v1.3.1 añade soporte multimedia, dictado por voz y empaquetado para Linux.

Cambios en el Flujo de Trabajo y Observaciones de Rendimiento de Claude Code UltraPlan