331 Modelos GGUF Testados: Mac Mini M4 16GB Benchmarks

Um benchmark abrangente testou 331 modelos GGUF em um Mac Mini M4 com 16GB de memória unificada para identificar opções viáveis para implantação local. O pipeline de testes rodou por semanas, automatizando a avaliação dos modelos para ir além da seleção subjetiva.

Principais Descobertas

31 dos 331 modelos foram completamente inutilizáveis no hardware de 16GB, definidos por tempo-para-primeiro-token (TTFT) > 10 segundos ou throughput < 0,1 tokens/segundo. Esses modelos tecnicamente carregam, mas sofrem com thrashing de memória. Todo modelo denso 27B+ testado caiu nessa categoria, com Qwen3.5-27B-heretic-v2-Q4_K_S sendo o pior desempenho com TTFT de 97 segundos e 0,007 tokens/segundo.

Quando os pesos do modelo mais o cache KV excedem aproximadamente 14GB, o desempenho "despenca". Modelos densos acima de 14B sofrem com falta de largura de banda de memória neste hardware.

Comparação de Arquitetura

Modelos Mixture-of-Experts (MoE) dominam no hardware de 16GB:

Mediana de tokens/segundo: MoE 20,0 vs Denso 4,4
Mediana de TTFT: MoE 0,66s vs Denso 0,87s
Pontuação máxima de qualidade: MoE 50,4 vs Denso 46,2

Modelos MoE com 1-3B de parâmetros ativos cabem na memória da GPU enquanto alcançam qualidade comparável a modelos densos muito maiores.

Modelos Pareto-Ótimos

Apenas 11 modelos dos 331 estão na fronteira de Pareto (nenhum outro modelo os supera em velocidade e qualidade):

Ling-mini-2.0 (Q4_K_S, abliterated): 50,3 tok/s, 24,2 qualidade
Ling-mini-2.0 (IQ4_NL): 49,8 tok/s, 25,8 qualidade
Ling-mini-2.0 (Q3_K_L): 46,3 tok/s, 26,2 qualidade
Ling-mini-2.0 (Q3_K_L, abliterated): 46,0 tok/s, 28,3 qualidade
Ling-Coder-lite (IQ4_NL): 24,3 tok/s, 29,2 qualidade
Ling-Coder-lite (Q4_0): 23,6 tok/s, 31,3 qualidade
LFM2-8B-A1B (Q5_K_M): 19,7 tok/s, 44,6 qualidade
LFM2-8B-A1B (Q5_K_XL): 18,9 tok/s, 44,6 qualidade
LFM2-8B-A1B (Q8_0): 15,1 tok/s, 46,2 qualidade
LFM2-8B-A1B (Q8_K_XL): 14,9 tok/s, 47,9 qualidade
LFM2-8B-A1B (Q6_K_XL): 13,9 tok/s, 50,4 qualidade

Cada modelo Pareto-ótimo é de arquitetura MoE. Todos os outros modelos nos 331 são estritamente dominados por um desses onze.

Desempenho de Contexto e Concorrência

A escalabilidade de contexto mostra desempenho surpreendentemente plano: a mediana da proporção de tokens/segundo (4096 vs 1024 contexto) é 1,0x. A maioria dos modelos mostra zero degradação ao ir de 1k para 4k de contexto, com alguns modelos MoE realmente acelerando em 4k. O limite de largura de banda de memória ainda não foi atingido em 4k neste hardware.

A concorrência é uma perda líquida: na concorrência 2, o throughput por requisição cai para 0,55x (o ideal seria 1,0x). Duas requisições concorrentes disputam o mesmo barramento de memória unificada. A recomendação é executar uma requisição por vez no hardware de 16GB.

Principais Recomendações

LFM2-8B-A1B-UD-Q6_K_XL (unsloth) - Melhor geral: 50,4 qualidade composta (maior de todos os 331 modelos), 13,9 tokens/segundo, 0,48s TTFT. MoE com 1B parâmetros ativos - arquitetonicamente ideal para 16GB.
LFM2-8B-A1B-Q5_K_M (unsloth) - Melhor velocidade entre modelos de qualidade: 19,7 tokens/segundo (variante LFM2 mais rápida), 44,6 qualidade (apenas 6 pontos abaixo do topo). Menor quantização = mais margem para contextos mais longos.
LFM2-8B-A1B-UD-Q8_K_XL (unsloth) - Opção de desempenho equilibrado.

📖 Leia a fonte completa: r/LocalLLaMA