Comparação de Desempenho de 88 Modelos GGUF Pequenos em um Mac Mini M4 de 16GB

✍️ OpenClawRadar📅 Publicado: March 2, 2026🔗 Source
Comparação de Desempenho de 88 Modelos GGUF Pequenos em um Mac Mini M4 de 16GB
Ad

Foi desenvolvido um pipeline automatizado para baixar, avaliar, fazer upload e excluir modelos GGUF em lotes em um Mac Mini M4 com 16GB de memória unificada. O pipeline testou 88 modelos para encontrar LLMs locais adequados para esta configuração de hardware.

Principais Descobertas

  • 9 dos 88 modelos são inutilizáveis em 16GB de RAM - Qualquer modelo onde os pesos mais o cache KV excedam aproximadamente 14GB causa thrashing de memória, resultando em TTFT > 10 segundos ou < 0,1 tokens/segundo. Isso inclui todos os modelos densos 27B+.
  • Apenas 4 modelos estão na fronteira de Pareto de throughput vs qualidade - Todos são da arquitetura LFM2-8B-A1B (MoE da LiquidAI com 1B parâmetros ativos). O design MoE significa que apenas cerca de 1B parâmetros estão ativos por token, alcançando 12-20 tokens/segundo, enquanto modelos densos 8B atingem no máximo 5-7 tokens/segundo.
  • A escalabilidade de contexto de 1k para 4k é plana - A maioria dos modelos mostra degradação zero de throughput, com algumas variantes LFM2 realmente acelerando em contexto de 4k.
  • A escalabilidade de concorrência é ruim (0,57x na concorrência 2 vs ideal 2,0x) - O Mac Mini é limitado pela largura de banda da memória, portanto, recomenda-se executar uma solicitação por vez.
Ad

Modelos da Fronteira de Pareto

Estes quatro modelos superam todos os outros em velocidade e qualidade:

  • LFM2-8B-A1B-Q5_K_M (unsloth): 14,24 TPS média, pontuação de qualidade 44,6
  • LFM2-8B-A1B-Q8_0 (unsloth): 12,37 TPS média, pontuação de qualidade 46,2
  • LFM2-8B-A1B-UD-Q8_K_XL (unsloth): 12,18 TPS média, pontuação de qualidade 47,9
  • LFM2-8B-A1B-Q8_0 (LiquidAI): 12,18 TPS média, pontuação de qualidade 51,2

A avaliação de qualidade usou subconjuntos compactos (20 questões GSM8K + 60 questões MMLU) - útil direcionalmente para classificação, mas não números absolutos de nível de publicação.

Recomendações

Para melhor qualidade: LFM2-8B-A1B-Q8_0. Para velocidade: Q5_K_M. Para equilíbrio: UD-Q6_K_XL.

Detalhes Técnicos

  • Hardware: Mac Mini M4, 16GB de memória unificada, macOS 15.x
  • Software: llama-server (llama.cpp)
  • Metodologia: Os números de throughput são p50 em múltiplas solicitações
  • Dados: Todos os dados são reproduzíveis a partir de artefatos no repositório

O pipeline completo é automatizado e de código aberto. Dados CSV com todos os 88 modelos e scripts de benchmark estão disponíveis no repositório.

📖 Leia a fonte completa: r/LocalLLaMA

Ad

👀 See Also

MemRosetta adiciona memória persistente ao Claude Code com configuração de um único comando
Tools

MemRosetta adiciona memória persistente ao Claude Code com configuração de um único comando

MemRosetta v0.2.4 fornece ao Claude Code memória entre sessões através de um único comando npm install. A ferramenta inclui um servidor MCP com 6 ferramentas de memória, captura automática de sessões e armazenamento local em SQLite que pode ser compartilhado com o Cursor.

OpenClawRadar
Sumário de Alternativas ao Hermes Agent 2026: Opções Auto-hospedadas do OpenClaw ao memU Bot
Tools

Sumário de Alternativas ao Hermes Agent 2026: Opções Auto-hospedadas do OpenClaw ao memU Bot

Um desenvolvedor que usa o Hermes desde o lançamento testou todas as alternativas self-hosted e gerenciadas após a bagunça de segurança do ClawHub. Principais descobertas: OpenClaw (370k estrelas) mas 9 CVEs em 4 dias e ~20% de pacotes maliciosos; TrustClaw reconstruído com OAuth/sandboxing; nanobot com ~4K linhas de Python e MCP; memU Bot com memória estruturada única. Opções gerenciadas incluem Perplexity Computer (19 modelos, $200/mês), Claude Cowork (abre apps reais do Mac) e KimiClaw (40GB RAG, restrito ao K2.5, lei de dados chinesa). Resumo completo na fonte.

OpenClawRadar
Gargalo de Verificação de Código do Claude e Solução de Plugin de Automação de Navegador
Tools

Gargalo de Verificação de Código do Claude e Solução de Plugin de Automação de Navegador

Um desenvolvedor relata que a verificação continua sendo a parte mais lenta do uso do Claude Code, exigindo testes manuais de recursos. Eles encontraram um plugin de automação de navegador que permite ao agente verificar fluxos reais do produto antes de marcar tarefas como concluídas.

OpenClawRadar
LoreConvo: Servidor MCP Adiciona Memória de Sessão Persistente ao Código Claude
Tools

LoreConvo: Servidor MCP Adiciona Memória de Sessão Persistente ao Código Claude

LoreConvo é um servidor MCP que fornece ao Claude Code memória de sessão persistente, salvando e carregando automaticamente o contexto entre sessões. Ele economiza 3.000 a 8.000 tokens por sessão ao eliminar a sobrecarga de recontextualização.

OpenClawRadar