Evaluación comparativa de 88 modelos pequeños GGUF en un Mac Mini M4 de 16 GB

✍️ OpenClawRadar📅 Publicado: 2 de marzo de 2026🔗 Source
Evaluación comparativa de 88 modelos pequeños GGUF en un Mac Mini M4 de 16 GB
Ad

Se desarrolló una canalización automatizada para descargar, evaluar, subir y eliminar modelos GGUF en oleadas en una Mac Mini M4 con 16 GB de memoria unificada. La canalización probó 88 modelos para encontrar LLMs locales adecuados para esta configuración de hardware.

Hallazgos Clave

  • 9 de 88 modelos son inutilizables con 16 GB de RAM - Cualquier modelo donde los pesos más la caché KV superen aproximadamente 14 GB causa trashing de memoria, resultando en TTFT > 10 segundos o < 0.1 tokens/segundo. Esto incluye todos los modelos densos de 27B+.
  • Solo 4 modelos se sitúan en la frontera de Pareto de rendimiento vs calidad - Todos son arquitectura LFM2-8B-A1B (MoE de LiquidAI con 1B parámetros activos). El diseño MoE significa que solo unos 1B parámetros están activos por token, logrando 12-20 tokens/segundo donde los modelos densos de 8B alcanzan un máximo de 5-7 tokens/segundo.
  • La escalabilidad de contexto de 1k a 4k es plana - La mayoría de los modelos muestran cero degradación de rendimiento, con algunas variantes de LFM2 acelerándose incluso a 4k de contexto.
  • La escalabilidad de concurrencia es pobre (0.57x en concurrencia 2 vs ideal 2.0x) - La Mac Mini está limitada por el ancho de banda de memoria, por lo que se recomienda ejecutar una solicitud a la vez.
Ad

Modelos en la Frontera de Pareto

Estos cuatro modelos superan a todos los demás tanto en velocidad como en calidad:

  • LFM2-8B-A1B-Q5_K_M (unsloth): 14.24 TPS promedio, puntuación de calidad 44.6
  • LFM2-8B-A1B-Q8_0 (unsloth): 12.37 TPS promedio, puntuación de calidad 46.2
  • LFM2-8B-A1B-UD-Q8_K_XL (unsloth): 12.18 TPS promedio, puntuación de calidad 47.9
  • LFM2-8B-A1B-Q8_0 (LiquidAI): 12.18 TPS promedio, puntuación de calidad 51.2

La evaluación de calidad utilizó subconjuntos compactos (20 preguntas GSM8K + 60 MMLU) - útil direccionalmente para clasificar pero no números absolutos de calidad de publicación.

Recomendaciones

Para la mejor calidad: LFM2-8B-A1B-Q8_0. Para velocidad: Q5_K_M. Para equilibrio: UD-Q6_K_XL.

Detalles Técnicos

  • Hardware: Mac Mini M4, 16 GB de memoria unificada, macOS 15.x
  • Software: llama-server (llama.cpp)
  • Metodología: Los números de rendimiento son p50 sobre múltiples solicitudes
  • Datos: Todos los datos son reproducibles a partir de artefactos en el repositorio

La canalización completa está automatizada y es de código abierto. Los datos CSV con los 88 modelos y los scripts de evaluación están disponibles en el repositorio.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Ver también

TEMM1E v3.1.0: Agente de IA que se ajusta automáticamente mediante interacciones con usuarios.
Herramientas

TEMM1E v3.1.0: Agente de IA que se ajusta automáticamente mediante interacciones con usuarios.

TEMM1E v3.1.0 presenta Eigen-Tune, un sistema que captura las interacciones de LLM como datos de entrenamiento, evalúa la calidad a partir del comportamiento del usuario y ajusta modelos locales mediante LoRA sin coste adicional de LLM. Probado en Apple M2, corrigió conversiones de temperatura de 72°F = '150°C' a '21.2°C' tras 10 conversaciones.

OpenClawRadar
Monitor de la Bandeja del Sistema de Windows para la Cuota de Código de Claude
Herramientas

Monitor de la Bandeja del Sistema de Windows para la Cuota de Código de Claude

Una aplicación de la bandeja del sistema de Windows que monitorea el uso de Claude Code con un icono codificado por colores, actualiza automáticamente los datos de cuota cada 5 minutos a través de la API OAuth de Anthropic, y proporciona paneles detallados que muestran patrones de uso por hora, día, semana y mes.

OpenClawRadar
Automatiza la revisión de PRs de GitHub con agentes de Claude Code
Herramientas

Automatiza la revisión de PRs de GitHub con agentes de Claude Code

Un desarrollador creó un agente que procesa menciones de GitHub, genera trabajadores de Claude Code para revisar o corregir PRs, y solo escala casos ambiguos a humanos.

OpenClawRadar
Extensión de navegador Claude Pulse muestra conteo de tokens, temporizadores de caché y límites de velocidad en Claude.ai
Herramientas

Extensión de navegador Claude Pulse muestra conteo de tokens, temporizadores de caché y límites de velocidad en Claude.ai

Claude Pulse es una extensión de Chrome del lado del cliente que agrega un panel en tiempo real a Claude.ai mostrando el conteo de tokens por mensaje, el uso total del contexto, un temporizador de caducidad de caché de prompt y una barra de progreso de límite de tasa. También incluye exportación de chat a Markdown.

OpenClawRadar