Resultados de Benchmark: 331 Modelos GGUF Testados no Mac Mini M4 16GB

✍️ OpenClawRadar📅 Publicado: March 26, 2026🔗 Source
Resultados de Benchmark: 331 Modelos GGUF Testados no Mac Mini M4 16GB
Ad

Um benchmark abrangente testou 331 modelos GGUF em um Mac Mini M4 com 16GB de memória unificada para identificar opções viáveis para implantação local. O pipeline de testes rodou por semanas, automatizando a avaliação dos modelos para ir além da seleção subjetiva.

Principais Descobertas

31 dos 331 modelos foram completamente inutilizáveis no hardware de 16GB, definidos por tempo-para-primeiro-token (TTFT) > 10 segundos ou throughput < 0,1 tokens/segundo. Esses modelos tecnicamente carregam, mas sofrem com thrashing de memória. Todo modelo denso 27B+ testado caiu nessa categoria, com Qwen3.5-27B-heretic-v2-Q4_K_S sendo o pior desempenho com TTFT de 97 segundos e 0,007 tokens/segundo.

Quando os pesos do modelo mais o cache KV excedem aproximadamente 14GB, o desempenho "despenca". Modelos densos acima de 14B sofrem com falta de largura de banda de memória neste hardware.

Comparação de Arquitetura

Modelos Mixture-of-Experts (MoE) dominam no hardware de 16GB:

  • Mediana de tokens/segundo: MoE 20,0 vs Denso 4,4
  • Mediana de TTFT: MoE 0,66s vs Denso 0,87s
  • Pontuação máxima de qualidade: MoE 50,4 vs Denso 46,2

Modelos MoE com 1-3B de parâmetros ativos cabem na memória da GPU enquanto alcançam qualidade comparável a modelos densos muito maiores.

Modelos Pareto-Ótimos

Apenas 11 modelos dos 331 estão na fronteira de Pareto (nenhum outro modelo os supera em velocidade e qualidade):

  • Ling-mini-2.0 (Q4_K_S, abliterated): 50,3 tok/s, 24,2 qualidade
  • Ling-mini-2.0 (IQ4_NL): 49,8 tok/s, 25,8 qualidade
  • Ling-mini-2.0 (Q3_K_L): 46,3 tok/s, 26,2 qualidade
  • Ling-mini-2.0 (Q3_K_L, abliterated): 46,0 tok/s, 28,3 qualidade
  • Ling-Coder-lite (IQ4_NL): 24,3 tok/s, 29,2 qualidade
  • Ling-Coder-lite (Q4_0): 23,6 tok/s, 31,3 qualidade
  • LFM2-8B-A1B (Q5_K_M): 19,7 tok/s, 44,6 qualidade
  • LFM2-8B-A1B (Q5_K_XL): 18,9 tok/s, 44,6 qualidade
  • LFM2-8B-A1B (Q8_0): 15,1 tok/s, 46,2 qualidade
  • LFM2-8B-A1B (Q8_K_XL): 14,9 tok/s, 47,9 qualidade
  • LFM2-8B-A1B (Q6_K_XL): 13,9 tok/s, 50,4 qualidade

Cada modelo Pareto-ótimo é de arquitetura MoE. Todos os outros modelos nos 331 são estritamente dominados por um desses onze.

Ad

Desempenho de Contexto e Concorrência

A escalabilidade de contexto mostra desempenho surpreendentemente plano: a mediana da proporção de tokens/segundo (4096 vs 1024 contexto) é 1,0x. A maioria dos modelos mostra zero degradação ao ir de 1k para 4k de contexto, com alguns modelos MoE realmente acelerando em 4k. O limite de largura de banda de memória ainda não foi atingido em 4k neste hardware.

A concorrência é uma perda líquida: na concorrência 2, o throughput por requisição cai para 0,55x (o ideal seria 1,0x). Duas requisições concorrentes disputam o mesmo barramento de memória unificada. A recomendação é executar uma requisição por vez no hardware de 16GB.

Principais Recomendações

  1. LFM2-8B-A1B-UD-Q6_K_XL (unsloth) - Melhor geral: 50,4 qualidade composta (maior de todos os 331 modelos), 13,9 tokens/segundo, 0,48s TTFT. MoE com 1B parâmetros ativos - arquitetonicamente ideal para 16GB.
  2. LFM2-8B-A1B-Q5_K_M (unsloth) - Melhor velocidade entre modelos de qualidade: 19,7 tokens/segundo (variante LFM2 mais rápida), 44,6 qualidade (apenas 6 pontos abaixo do topo). Menor quantização = mais margem para contextos mais longos.
  3. LFM2-8B-A1B-UD-Q8_K_XL (unsloth) - Opção de desempenho equilibrado.

📖 Leia a fonte completa: r/LocalLLaMA

Ad

👀 See Also

AgenteStore MCP: Kit de Ferramentas Python para Claude Desktop com 27 Ferramentas Locais
Tools

AgenteStore MCP: Kit de Ferramentas Python para Claude Desktop com 27 Ferramentas Locais

AgenticStore MCP é um kit de ferramentas Python de código aberto que substitui múltiplos servidores MCP por uma única instalação, fornecendo ao Claude Desktop 27 ferramentas locais, incluindo memória persistente, busca na web e auditoria de repositórios, sem exigir configuração de Docker ou Node.js.

OpenClawRadar
A Gema Rails-AI-Context Fornece ao Claude Código com o Modelo Completo do App Rails via MCP
Tools

A Gema Rails-AI-Context Fornece ao Claude Código com o Modelo Completo do App Rails via MCP

A gem rails-ai-context realiza auto-introspecção de aplicações Rails e expõe 39 ferramentas via MCP, permitindo que o Claude Code consulte detalhes específicos do app como esquema com colunas criptografadas, associações de modelos, rotas, configurações Stimulus e mapeamentos Turbo, em vez de ler arquivos inteiros.

OpenClawRadar
Extensão do Chrome Claude para PDF Exporta Conversas Longas com Formatação Preservada
Tools

Extensão do Chrome Claude para PDF Exporta Conversas Longas com Formatação Preservada

Um desenvolvedor lançou uma extensão gratuita para Chrome chamada Claude to PDF que captura todo o histórico de conversas dos chats da Claude AI e preserva blocos de código, fórmulas matemáticas em LaTeX e formatação de tabelas ao exportar para PDF.

OpenClawRadar
TideSurf: Ferramenta de compressão DOM reduz uso de tokens de agentes web em 30 vezes, acelera TTFT em 12 vezes
Tools

TideSurf: Ferramenta de compressão DOM reduz uso de tokens de agentes web em 30 vezes, acelera TTFT em 12 vezes

O TideSurf v0.3 converte o DOM renderizado para um formato compactado semelhante a markdown, reduzindo o consumo de tokens em 32x em páginas do GitHub em comparação com o DOM bruto, enquanto adiciona 18 ferramentas interativas para agentes de LLM.

OpenClawRadar