88 Modelos GGUF en Mac Mini M4: Prueba y Resultados

Se desarrolló una canalización automatizada para descargar, evaluar, subir y eliminar modelos GGUF en oleadas en una Mac Mini M4 con 16 GB de memoria unificada. La canalización probó 88 modelos para encontrar LLMs locales adecuados para esta configuración de hardware.

Hallazgos Clave

9 de 88 modelos son inutilizables con 16 GB de RAM - Cualquier modelo donde los pesos más la caché KV superen aproximadamente 14 GB causa trashing de memoria, resultando en TTFT > 10 segundos o < 0.1 tokens/segundo. Esto incluye todos los modelos densos de 27B+.
Solo 4 modelos se sitúan en la frontera de Pareto de rendimiento vs calidad - Todos son arquitectura LFM2-8B-A1B (MoE de LiquidAI con 1B parámetros activos). El diseño MoE significa que solo unos 1B parámetros están activos por token, logrando 12-20 tokens/segundo donde los modelos densos de 8B alcanzan un máximo de 5-7 tokens/segundo.
La escalabilidad de contexto de 1k a 4k es plana - La mayoría de los modelos muestran cero degradación de rendimiento, con algunas variantes de LFM2 acelerándose incluso a 4k de contexto.
La escalabilidad de concurrencia es pobre (0.57x en concurrencia 2 vs ideal 2.0x) - La Mac Mini está limitada por el ancho de banda de memoria, por lo que se recomienda ejecutar una solicitud a la vez.

Modelos en la Frontera de Pareto

Estos cuatro modelos superan a todos los demás tanto en velocidad como en calidad:

LFM2-8B-A1B-Q5_K_M (unsloth): 14.24 TPS promedio, puntuación de calidad 44.6
LFM2-8B-A1B-Q8_0 (unsloth): 12.37 TPS promedio, puntuación de calidad 46.2
LFM2-8B-A1B-UD-Q8_K_XL (unsloth): 12.18 TPS promedio, puntuación de calidad 47.9
LFM2-8B-A1B-Q8_0 (LiquidAI): 12.18 TPS promedio, puntuación de calidad 51.2

La evaluación de calidad utilizó subconjuntos compactos (20 preguntas GSM8K + 60 MMLU) - útil direccionalmente para clasificar pero no números absolutos de calidad de publicación.

Recomendaciones

Para la mejor calidad: LFM2-8B-A1B-Q8_0. Para velocidad: Q5_K_M. Para equilibrio: UD-Q6_K_XL.

Detalles Técnicos

Hardware: Mac Mini M4, 16 GB de memoria unificada, macOS 15.x
Software: llama-server (llama.cpp)
Metodología: Los números de rendimiento son p50 sobre múltiples solicitudes
Datos: Todos los datos son reproducibles a partir de artefactos en el repositorio

La canalización completa está automatizada y es de código abierto. Los datos CSV con los 88 modelos y los scripts de evaluación están disponibles en el repositorio.

📖 Read the full source: r/LocalLLaMA

Evaluación comparativa de 88 modelos pequeños GGUF en un Mac Mini M4 de 16 GB

Hallazgos Clave

Modelos en la Frontera de Pareto

Recomendaciones

Detalles Técnicos

👀 Ver también

ProofShot CLI Brinda a los Agentes de Codificación con IA Capacidades de Verificación en el Navegador

Los Vectores de Emoción Interna 171 de Claude Influyen en la Salida: Kit de Herramientas Basado en la Investigación de Anthropic

Dual DGX Sparks vs Mac Studio M3 Ultra: Comparación Práctica para Ejecutar Qwen3.5 397B Localmente

La aplicación Focusmo para macOS añade un servidor MCP local para la integración con Claude AI.