Gemma-4 26B-A4B avec Opencode fonctionne efficacement sur MacBook Air M5

Un développeur a testé Gemma-4-26B-A4B avec Opencode sur un MacBook Air M5 32 Go et a constaté qu'il offre des performances pratiques pour les tâches locales de codage IA.
Benchmarks de performance
La configuration spécifique testée était gemma-4-26B-A4B-it-UD-IQ4_XS fonctionnant sur un MacBook Air M5 32 Go. En mode basse consommation, il a atteint :
- 300 tokens/seconde pour le traitement des invites
- 12 tokens/seconde en génération
- 8 W de consommation d'énergie
- Aucune chaleur ni bruit de ventilateur pendant le fonctionnement
Le MacBook Air M5 a montré des améliorations significatives par rapport au matériel précédent :
- ~25 % plus rapide pour le traitement des invites qu'un M1 Max 64 Go (même lorsque le Max n'était pas en mode économie d'énergie)
- ~6 heures d'autonomie contre ~2 heures sur le M1 Max lors de l'exécution d'Opencode
- Ceci malgré une batterie plus petite (53,8 Wh contre 70 Wh sur le M1 Max)
Cas d'utilisation pratiques
Le développeur a trouvé cette configuration "réellement utilisable" pour un comportement de codage agentique depuis un ordinateur portable. Auparavant, l'exécution de LLM sur un M1 Max 64 Go était limitée à des "bidouillages et cas d'utilisation ludiques" et ne pouvait pas gérer efficacement les tâches à contexte long. Bien qu'il puisse créer un simple jeu Snake en Python, le codage agentique ou la contribution à des bases de code plus importantes était "un peu bancal".
Les performances du M5 le rendent pratique pour les cas d'utilisation mobiles où la connectivité Internet pourrait être peu fiable, comme dans les cafés ou lors des trajets en train.
Comparaison avec d'autres modèles
Le développeur a comparé Gemma-4-26B avec Opencode aux alternatives propriétaires :
- Il ne remplace pas Claude Code ou Antigravity selon leurs tests
- Gemma-4 nécessite "beaucoup plus d'accompagnement que les modèles propriétaires de pointe actuels"
- Les réponses sont décrites comme "un peu sèches" par rapport à Claude Code ou Gemini-3.1-Pro avec Antigravity
- Cependant, ils préféreraient Gemma-4-26B plutôt que de manquer de quota Gemini-2.5-Pro et être obligés d'utiliser Gemini-2.5-Flash
Le développeur note que cela représente des progrès significatifs, car "ce type de codage agentique était à la pointe / pas vraiment possible avec les modèles de pointe fin 2024".
📖 Read the full source: r/LocalLLaMA
👀 See Also

LetMeWatch : Un plugin Python ajoute l'analyse vidéo à Claude via la détection de scènes FFmpeg
Un développeur a créé un plugin Python d'environ 200 lignes appelé LetMeWatch qui permet à Claude d'analyser des vidéos en utilisant FFmpeg pour la détection de scènes, en extrayant uniquement les images où le contenu visuel change, en les horodatant, et en les envoyant par lots à la vision multimodale de Claude.

Auto Router vs Sonnet : Économies de coût vs Qualité de réponse
La fonctionnalité Auto Router d'Open Router sélectionne dynamiquement des LLM en fonction de la complexité du contexte, offrant des économies de coût significatives (0,8 centime contre 0,00071 centime par requête), mais les utilisateurs signalent une dégradation de la qualité des réponses par rapport à Sonnet 4.6.

Exécutez des LLM locaux sur votre téléphone avec Observer : agents hors ligne pour la surveillance et la journalisation
Observer est une application iOS open source qui exécute des LLM multimodaux localement sur votre téléphone pour surveiller des événements, enregistrer des données et déclencher des notifications Discord — le tout hors ligne et gratuit.

Pipeline de Traduction de Livres Locale Utilise Qwen 32B et Mistral 24B avec RAG Contextuel
Un développeur a créé un pipeline de traduction de livres entièrement local et automatisé qui convertit des fichiers PDF au format ePub en utilisant huit scripts Python. Le système aborde les problèmes courants de traduction comme la perte de contexte et les problèmes de mise en forme grâce à un flux de travail en plusieurs étapes.