88 Modelos GGUF em Mac Mini M4: Comparação de Desempenho

Foi desenvolvido um pipeline automatizado para baixar, avaliar, fazer upload e excluir modelos GGUF em lotes em um Mac Mini M4 com 16GB de memória unificada. O pipeline testou 88 modelos para encontrar LLMs locais adequados para esta configuração de hardware.

Principais Descobertas

9 dos 88 modelos são inutilizáveis em 16GB de RAM - Qualquer modelo onde os pesos mais o cache KV excedam aproximadamente 14GB causa thrashing de memória, resultando em TTFT > 10 segundos ou < 0,1 tokens/segundo. Isso inclui todos os modelos densos 27B+.
Apenas 4 modelos estão na fronteira de Pareto de throughput vs qualidade - Todos são da arquitetura LFM2-8B-A1B (MoE da LiquidAI com 1B parâmetros ativos). O design MoE significa que apenas cerca de 1B parâmetros estão ativos por token, alcançando 12-20 tokens/segundo, enquanto modelos densos 8B atingem no máximo 5-7 tokens/segundo.
A escalabilidade de contexto de 1k para 4k é plana - A maioria dos modelos mostra degradação zero de throughput, com algumas variantes LFM2 realmente acelerando em contexto de 4k.
A escalabilidade de concorrência é ruim (0,57x na concorrência 2 vs ideal 2,0x) - O Mac Mini é limitado pela largura de banda da memória, portanto, recomenda-se executar uma solicitação por vez.

Modelos da Fronteira de Pareto

Estes quatro modelos superam todos os outros em velocidade e qualidade:

LFM2-8B-A1B-Q5_K_M (unsloth): 14,24 TPS média, pontuação de qualidade 44,6
LFM2-8B-A1B-Q8_0 (unsloth): 12,37 TPS média, pontuação de qualidade 46,2
LFM2-8B-A1B-UD-Q8_K_XL (unsloth): 12,18 TPS média, pontuação de qualidade 47,9
LFM2-8B-A1B-Q8_0 (LiquidAI): 12,18 TPS média, pontuação de qualidade 51,2

A avaliação de qualidade usou subconjuntos compactos (20 questões GSM8K + 60 questões MMLU) - útil direcionalmente para classificação, mas não números absolutos de nível de publicação.

Recomendações

Para melhor qualidade: LFM2-8B-A1B-Q8_0. Para velocidade: Q5_K_M. Para equilíbrio: UD-Q6_K_XL.

Detalhes Técnicos

Hardware: Mac Mini M4, 16GB de memória unificada, macOS 15.x
Software: llama-server (llama.cpp)
Metodologia: Os números de throughput são p50 em múltiplas solicitações
Dados: Todos os dados são reproduzíveis a partir de artefatos no repositório

O pipeline completo é automatizado e de código aberto. Dados CSV com todos os 88 modelos e scripts de benchmark estão disponíveis no repositório.

📖 Leia a fonte completa: r/LocalLLaMA

Comparação de Desempenho de 88 Modelos GGUF Pequenos em um Mac Mini M4 de 16GB

Principais Descobertas

Modelos da Fronteira de Pareto

Recomendações

Detalhes Técnicos

👀 See Also

O plugin cc-soul adiciona memória persistente e personas adaptativas ao OpenClaw.

Trepan: Auditor de Segurança Local do VS Code para Código Gerado por IA

PageAgent: Agente de IA para Navegador que Opera Dentro de Páginas Web com Suporte a Ollama

Claude Code user constrói plugin nvm para capturar contexto de resolução de problemas