Gemma-4 26B-A4B: 300 Tokens/s no MacBook Air M5

Um desenvolvedor testou o Gemma-4-26B-A4B com Opencode em um MacBook Air M5 de 32GB e descobriu que ele oferece desempenho prático para tarefas locais de IA em programação.

Benchmarks de Desempenho

A configuração específica testada foi gemma-4-26B-A4B-it-UD-IQ4_XS rodando em um MacBook Air M5 de 32GB. No modo de baixo consumo, ele alcançou:

300 tokens/segundo no processamento de prompts
12 tokens/segundo na geração
8W de consumo de energia
Sem aquecimento ou ruído da ventoinha durante a operação

O MacBook Air M5 mostrou melhorias significativas em relação ao hardware anterior:

~25% mais rápido no processamento de prompts do que um M1 Max 64GB (mesmo quando o Max não estava no modo de economia de energia)
~6 horas de duração da bateria versus ~2 horas no M1 Max ao executar o Opencode
Isso apesar de ter uma bateria menor (53,8Wh vs 70Wh no M1 Max)

Casos de Uso Práticos

O desenvolvedor considerou essa configuração "realmente utilizável" para comportamentos de programação agentica a partir de um laptop. Anteriormente, executar LLMs em um M1 Max 64GB era limitado a "brincadeiras e casos de uso de brinquedo" e não conseguia lidar efetivamente com tarefas de contexto mais longo. Embora pudesse criar um jogo simples da Cobrinha em Python, a programação agentica ou contribuir para bases de código maiores era "um pouco problemática".

O desempenho do M5 o torna prático para casos de uso móvel onde a conectividade com a internet pode ser instável, como em cafeterias ou durante deslocamentos de trem.

Comparação com Outros Modelos

O desenvolvedor comparou o Gemma-4-26B com Opencode a alternativas de código fechado:

Ele não substitui o Claude Code ou o Antigravity em seus testes
O Gemma-4 requer "muito mais assistência manual do que os modelos de fronteira atuais de código fechado"
As respostas são descritas como "meio secas" em comparação com o Claude Code ou o Gemini-3.1-Pro com Antigravity
No entanto, eles prefeririam o Gemma-4-26B a ficar sem a cota do Gemini-2.5-Pro e ser forçado a usar o Gemini-2.5-Flash

O desenvolvedor observa que isso representa um progresso significativo, pois "esse tipo de programação agentica era de ponta / nem mesmo realmente possível com modelos de fronteira no final de 2024".

📖 Leia a fonte completa: r/LocalLLaMA

Gemma-4 26B-A4B com Opencode funciona de forma eficiente no MacBook Air M5

Benchmarks de Desempenho

Casos de Uso Práticos

Comparação com Outros Modelos

👀 See Also

Anamnese: Uma Camada de Memória Portátil para Claude e ChatGPT via MCP

Claude Code v2.1.126: Seletor de Modelo, Limpeza de Projeto, Correções no OAuth e Melhorias de Segurança

Bodega Inference Engine: Otimizando a Inferência de LLM para a Memória Unificada do Apple Silicon

YantrikClaw Fork Adiciona Memória Cognitiva, Modo Companheiro e Ferramentas Conscientes de Nível ao ZeroClaw