Gemma-4 26B-A4B mit Opencode läuft effizient auf dem M5 MacBook Air

Ein Entwickler testete Gemma-4-26B-A4B mit Opencode auf einem 32GB M5 MacBook Air und stellte fest, dass es praktische Leistung für lokale KI-Codierungsaufgaben bietet.
Leistungsbenchmarks
Die getestete spezifische Konfiguration war gemma-4-26B-A4B-it-UD-IQ4_XS, die auf einem 32GB M5 MacBook Air läuft. Im Energiesparmodus erreichte sie:
- 300 Token/Sekunde bei der Eingabeverarbeitung
- 12 Token/Sekunde bei der Generierung
- 8W Stromverbrauch
- Keine Wärme oder Lüftergeräusche während des Betriebs
Das M5 MacBook Air zeigte deutliche Verbesserungen gegenüber früherer Hardware:
- ~25 % schnellere Eingabeverarbeitung als ein M1 Max 64GB (selbst wenn der Max nicht im Energiesparmodus war)
- ~6 Stunden Akkulaufzeit gegenüber ~2 Stunden beim M1 Max beim Ausführen von Opencode
- Dies trotz eines kleineren Akkus (53,8 Wh gegenüber 70 Wh beim M1 Max)
Praktische Anwendungsfälle
Der Entwickler fand dieses Setup „tatsächlich nutzbar“ für agentisches Codierverhalten von einem Laptop aus. Zuvor war das Ausführen von LLMs auf einem M1 Max 64GB auf „Herumspielen und Spielzeug-Anwendungsfälle“ beschränkt und konnte längere Kontextaufgaben nicht effektiv bewältigen. Während es ein einfaches Snake-Spiel in Python erstellen konnte, war agentisches Codieren oder das Beitragen zu größeren Codebasen „etwas hakelig“.
Die Leistung des M5 macht es für mobile Anwendungsfälle praktikabel, in denen die Internetverbindung unzuverlässig sein könnte, wie in Cafés oder während Zugpendelverkehr.
Vergleich mit anderen Modellen
Der Entwickler verglich Gemma-4-26B mit Opencode mit Closed-Source-Alternativen:
- Es ersetzt Claude Code oder Antigravity laut ihren Tests nicht
- Gemma-4 erfordert „deutlich mehr Handhalten als aktuelle Closed-Source-Frontiermodelle“
- Die Antworten werden als „irgendwie trocken“ im Vergleich zu Claude Code oder Gemini-3.1-Pro mit Antigravity beschrieben
- Sie würden jedoch Gemma-4-26B vorziehen, anstatt ihr Gemini-2.5-Pro-Kontingent aufzubrauchen und gezwungen zu sein, Gemini-2.5-Flash zu verwenden
Der Entwickler merkt an, dass dies einen bedeutenden Fortschritt darstellt, da „diese Art von agentischem Codieren Ende 2024 bei Frontiermodellen noch Spitzentechnik / nicht wirklich möglich war.“
📖 Read the full source: r/LocalLLaMA
👀 Siehe auch

Relational Memory für LLMs: Drei-Schichten-System modelliert Benutzerbeziehungen
Ein Open-Source-Python-Tool, das relationales Gedächtnis zu LLMs hinzufügt, indem es Benutzer-KI-Beziehungen über sieben psychologische Dimensionen modelliert, anstatt flache Fakten zu speichern, und dabei eine dreischichtige Erzählstruktur verwendet.

Start Engine MCP Server bietet eine 39-Tool-Pipeline für die Geschäftsvalidierung.
Launch Engine ist ein MCP-Server, der Claude eine strukturierte Pipeline mit 39 miteinander verbundenen SOP-Tools bietet, die in 5 Ebenen organisiert sind, um Geschäftsideen von der Konzeption bis zur validierten Umsatzgenerierung zu führen. Das System umfasst spezialisierte Subagenten, Voraussetzungsprüfungen sowie Tools für Batch-Auswertungen und schnelles Testen.

PayClaw startet Sandbox für Payment MCP Server mit virtuellen Visa-Karten
PayClaw hat eine Sandbox-Umgebung für seinen Payment-MCP-Server gestartet, die Händler-gebundene virtuelle Visa-Karten mit 15-minütiger Gültigkeit, MFA-geschützte menschliche Genehmigung pro Transaktion und Absichtserklärung vor Kartenausgabe bietet. Produktionskarten sind für den 4. März geplant.

NervMap: Einzelbefehl-Server-Service-Erkennungs- und Diagnosewerkzeug
NervMap ist ein Linux-Tool, das Docker-Container, systemd-Dienste und einfache Prozesse in unter einer Sekunde erkennt, Abhängigkeiten zwischen ihnen abbildet und Probleme mit Schweregradanalyse und Lösungsvorschlägen diagnostiziert.