Exécutez Gemma-4 26B-A4B sur MacBook Air M5 : 300 tok/s

Un développeur a testé Gemma-4-26B-A4B avec Opencode sur un MacBook Air M5 32 Go et a constaté qu'il offre des performances pratiques pour les tâches locales de codage IA.

Benchmarks de performance

La configuration spécifique testée était gemma-4-26B-A4B-it-UD-IQ4_XS fonctionnant sur un MacBook Air M5 32 Go. En mode basse consommation, il a atteint :

300 tokens/seconde pour le traitement des invites
12 tokens/seconde en génération
8 W de consommation d'énergie
Aucune chaleur ni bruit de ventilateur pendant le fonctionnement

Le MacBook Air M5 a montré des améliorations significatives par rapport au matériel précédent :

~25 % plus rapide pour le traitement des invites qu'un M1 Max 64 Go (même lorsque le Max n'était pas en mode économie d'énergie)
~6 heures d'autonomie contre ~2 heures sur le M1 Max lors de l'exécution d'Opencode
Ceci malgré une batterie plus petite (53,8 Wh contre 70 Wh sur le M1 Max)

Cas d'utilisation pratiques

Le développeur a trouvé cette configuration "réellement utilisable" pour un comportement de codage agentique depuis un ordinateur portable. Auparavant, l'exécution de LLM sur un M1 Max 64 Go était limitée à des "bidouillages et cas d'utilisation ludiques" et ne pouvait pas gérer efficacement les tâches à contexte long. Bien qu'il puisse créer un simple jeu Snake en Python, le codage agentique ou la contribution à des bases de code plus importantes était "un peu bancal".

Les performances du M5 le rendent pratique pour les cas d'utilisation mobiles où la connectivité Internet pourrait être peu fiable, comme dans les cafés ou lors des trajets en train.

Comparaison avec d'autres modèles

Le développeur a comparé Gemma-4-26B avec Opencode aux alternatives propriétaires :

Il ne remplace pas Claude Code ou Antigravity selon leurs tests
Gemma-4 nécessite "beaucoup plus d'accompagnement que les modèles propriétaires de pointe actuels"
Les réponses sont décrites comme "un peu sèches" par rapport à Claude Code ou Gemini-3.1-Pro avec Antigravity
Cependant, ils préféreraient Gemma-4-26B plutôt que de manquer de quota Gemini-2.5-Pro et être obligés d'utiliser Gemini-2.5-Flash

Le développeur note que cela représente des progrès significatifs, car "ce type de codage agentique était à la pointe / pas vraiment possible avec les modèles de pointe fin 2024".

📖 Read the full source: r/LocalLLaMA

Gemma-4 26B-A4B avec Opencode fonctionne efficacement sur MacBook Air M5

Benchmarks de performance

Cas d'utilisation pratiques

Comparaison avec d'autres modèles

👀 See Also

Orchino : Système d'Orchestration Multi-Agents Local pour Windows avec Automatisation Parallèle de Navigateur et d'Interface Utilisateur

NerfGuard : un classifieur qui oriente les demandes de codage vers des modèles moins chers, réduisant les coûts de 3 fois

Maggy : Une plateforme d'ingénierie autonome sur Claude Code avec mémoire inter-sessions et apprentissage d'équipe pair-à-pair

Token Enhancer réduit l'utilisation de jetons des pages web pour les agents d'IA.