Resultados de Referencia: 331 Modelos GGUF Probados en Mac Mini M4 de 16GB

✍️ OpenClawRadar📅 Publicado: 26 de marzo de 2026🔗 Source
Resultados de Referencia: 331 Modelos GGUF Probados en Mac Mini M4 de 16GB
Ad

Una evaluación comparativa exhaustiva probó 331 modelos GGUF en un Mac Mini M4 con 16 GB de memoria unificada para identificar opciones viables para implementación local. El proceso de pruebas se ejecutó durante semanas, automatizando la evaluación de modelos para ir más allá de la selección subjetiva.

Hallazgos Clave

31 de los 331 modelos fueron completamente inutilizables en hardware de 16 GB, definidos por un tiempo hasta el primer token (TTFT) > 10 segundos o un rendimiento < 0.1 tokens/segundo. Estos modelos técnicamente se cargan pero experimentan trashing de memoria. Cada modelo denso de 27B+ probado cayó en esta categoría, siendo Qwen3.5-27B-heretic-v2-Q4_K_S el de peor rendimiento con 97 segundos de TTFT y 0.007 tokens/segundo.

Cuando los pesos del modelo más la caché KV superan aproximadamente 14 GB, el rendimiento "se desploma". Los modelos densos por encima de 14B sufren de ancho de banda de memoria limitado en este hardware.

Comparación de Arquitecturas

Los modelos Mixture-of-Experts (MoE) dominan en hardware de 16 GB:

  • Mediana de tokens/segundo: MoE 20.0 vs Denso 4.4
  • Mediana de TTFT: MoE 0.66s vs Denso 0.87s
  • Puntuación máxima de calidad: MoE 50.4 vs Denso 46.2

Los modelos MoE con 1-3B parámetros activos caben en la memoria de la GPU mientras logran una calidad comparable a modelos densos mucho más grandes.

Modelos Pareto-Óptimos

Solo 11 modelos de 331 se sitúan en la frontera de Pareto (ningún otro modelo los supera tanto en velocidad como en calidad):

  • Ling-mini-2.0 (Q4_K_S, abliterated): 50.3 tok/s, 24.2 calidad
  • Ling-mini-2.0 (IQ4_NL): 49.8 tok/s, 25.8 calidad
  • Ling-mini-2.0 (Q3_K_L): 46.3 tok/s, 26.2 calidad
  • Ling-mini-2.0 (Q3_K_L, abliterated): 46.0 tok/s, 28.3 calidad
  • Ling-Coder-lite (IQ4_NL): 24.3 tok/s, 29.2 calidad
  • Ling-Coder-lite (Q4_0): 23.6 tok/s, 31.3 calidad
  • LFM2-8B-A1B (Q5_K_M): 19.7 tok/s, 44.6 calidad
  • LFM2-8B-A1B (Q5_K_XL): 18.9 tok/s, 44.6 calidad
  • LFM2-8B-A1B (Q8_0): 15.1 tok/s, 46.2 calidad
  • LFM2-8B-A1B (Q8_K_XL): 14.9 tok/s, 47.9 calidad
  • LFM2-8B-A1B (Q6_K_XL): 13.9 tok/s, 50.4 calidad

Cada modelo Pareto-óptimo es de arquitectura MoE. Todos los demás modelos de los 331 están estrictamente dominados por uno de estos once.

Ad

Rendimiento en Contexto y Concurrencia

La escalabilidad de contexto muestra un rendimiento sorprendentemente plano: la relación mediana de tokens/segundo (contexto 4096 vs 1024) es 1.0x. La mayoría de los modelos muestran cero degradación al pasar de 1k a 4k de contexto, con algunos modelos MoE incluso acelerándose a 4k. El límite de ancho de banda de memoria aún no se ha alcanzado a 4k en este hardware.

La concurrencia es una pérdida neta: en concurrencia 2, el rendimiento por solicitud cae a 0.55x (lo ideal sería 1.0x). Dos solicitudes concurrentes compiten por el mismo bus de memoria unificada. La recomendación es ejecutar una solicitud a la vez en hardware de 16 GB.

Recomendaciones Principales

  1. LFM2-8B-A1B-UD-Q6_K_XL (unsloth) - Mejor en general: 50.4 calidad compuesta (la más alta de todos los 331 modelos), 13.9 tokens/segundo, 0.48s TTFT. MoE con 1B parámetros activos - arquitectónicamente ideal para 16 GB.
  2. LFM2-8B-A1B-Q5_K_M (unsloth) - Mejor velocidad entre modelos de calidad: 19.7 tokens/segundo (variante LFM2 más rápida), 44.6 calidad (solo 6 puntos por debajo del mejor). Cuantización más pequeña = mayor margen para contextos más largos.
  3. LFM2-8B-A1B-UD-Q8_K_XL (unsloth) - Opción de rendimiento equilibrado.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Ver también

Hypura: Programador de inferencia de LLM consciente del nivel de almacenamiento para Apple Silicon
Herramientas

Hypura: Programador de inferencia de LLM consciente del nivel de almacenamiento para Apple Silicon

Hypura es un planificador de inferencia basado en Rust que distribuye los tensores del modelo entre las capas de GPU, RAM y NVMe para ejecutar modelos que superan la memoria física en Macs con Apple Silicon. Permite ejecutar un Mixtral 8x7B de 31 GB en un Mac Mini de 32 GB a 2.2 tok/s y un Llama 70B de 40 GB a 0.3 tok/s, mientras que llama.cpp estándar falla.

OpenClawRadar
Memorine: Un Sistema de Memoria Local para Agentes OpenClaw Utilizando Python y SQLite
Herramientas

Memorine: Un Sistema de Memoria Local para Agentes OpenClaw Utilizando Python y SQLite

Memorine es un sistema de memoria local para agentes OpenClaw que utiliza únicamente Python y SQLite, sin dependencias externas, llamadas a API o telemetría. Proporciona almacenamiento de hechos con búsqueda de texto completo, desvanecimiento de memoria, detección de contradicciones, encadenamiento causal de eventos y búsqueda semántica opcional mediante fastembed y sqlite-vec.

OpenClawRadar
Presentamos Swarmhook: Webhooks gratuitos y de código abierto para tu bot.
Herramientas

Presentamos Swarmhook: Webhooks gratuitos y de código abierto para tu bot.

Swarmhook.com ofrece webhooks gratuitos y de código abierto para gestionar eficazmente eventos para tus bots, optimizando así las capacidades de automatización y respuesta.

OpenClawRadar
Búsqueda-web-sin-conexión: Una alternativa local a la búsqueda de Google para agentes de IA
Herramientas

Búsqueda-web-sin-conexión: Una alternativa local a la búsqueda de Google para agentes de IA

Un desarrollador creó offline-web-search para abordar las deficientes capacidades de búsqueda sin conexión en agentes de IA, creando un reemplazo directo que imita las herramientas web de Claude con clasificación BM25, indexación SQLite FTS5, y soporte para archivos ZIM y rastreadores personalizados.

OpenClawRadar