Gemma-4 26B-A4B auf M5 MacBook Air: 300 Tokens/s bei 8W

Ein Entwickler testete Gemma-4-26B-A4B mit Opencode auf einem 32GB M5 MacBook Air und stellte fest, dass es praktische Leistung für lokale KI-Codierungsaufgaben bietet.

Leistungsbenchmarks

Die getestete spezifische Konfiguration war gemma-4-26B-A4B-it-UD-IQ4_XS, die auf einem 32GB M5 MacBook Air läuft. Im Energiesparmodus erreichte sie:

300 Token/Sekunde bei der Eingabeverarbeitung
12 Token/Sekunde bei der Generierung
8W Stromverbrauch
Keine Wärme oder Lüftergeräusche während des Betriebs

Das M5 MacBook Air zeigte deutliche Verbesserungen gegenüber früherer Hardware:

~25 % schnellere Eingabeverarbeitung als ein M1 Max 64GB (selbst wenn der Max nicht im Energiesparmodus war)
~6 Stunden Akkulaufzeit gegenüber ~2 Stunden beim M1 Max beim Ausführen von Opencode
Dies trotz eines kleineren Akkus (53,8 Wh gegenüber 70 Wh beim M1 Max)

Praktische Anwendungsfälle

Der Entwickler fand dieses Setup „tatsächlich nutzbar“ für agentisches Codierverhalten von einem Laptop aus. Zuvor war das Ausführen von LLMs auf einem M1 Max 64GB auf „Herumspielen und Spielzeug-Anwendungsfälle“ beschränkt und konnte längere Kontextaufgaben nicht effektiv bewältigen. Während es ein einfaches Snake-Spiel in Python erstellen konnte, war agentisches Codieren oder das Beitragen zu größeren Codebasen „etwas hakelig“.

Die Leistung des M5 macht es für mobile Anwendungsfälle praktikabel, in denen die Internetverbindung unzuverlässig sein könnte, wie in Cafés oder während Zugpendelverkehr.

Vergleich mit anderen Modellen

Der Entwickler verglich Gemma-4-26B mit Opencode mit Closed-Source-Alternativen:

Es ersetzt Claude Code oder Antigravity laut ihren Tests nicht
Gemma-4 erfordert „deutlich mehr Handhalten als aktuelle Closed-Source-Frontiermodelle“
Die Antworten werden als „irgendwie trocken“ im Vergleich zu Claude Code oder Gemini-3.1-Pro mit Antigravity beschrieben
Sie würden jedoch Gemma-4-26B vorziehen, anstatt ihr Gemini-2.5-Pro-Kontingent aufzubrauchen und gezwungen zu sein, Gemini-2.5-Flash zu verwenden

Der Entwickler merkt an, dass dies einen bedeutenden Fortschritt darstellt, da „diese Art von agentischem Codieren Ende 2024 bei Frontiermodellen noch Spitzentechnik / nicht wirklich möglich war.“

📖 Read the full source: r/LocalLLaMA

Gemma-4 26B-A4B mit Opencode läuft effizient auf dem M5 MacBook Air

Leistungsbenchmarks

Praktische Anwendungsfälle

Vergleich mit anderen Modellen

👀 Siehe auch

Engram: Ein Lern-Plugin für OpenClaw, das Wissen tatsächlich haften lässt

Silos-Dashboard: Open-Source-Web-UI zur Verwaltung von OpenClaw-Agenten

Krasis: Hybride CPU/GPU-Laufzeitumgebung für große MoE-Modelle erreicht 3.324 Tok/s Prefill auf RTX 5080

Clawion: OpenClaw-Wrapper mit Claude Max-Unterstützung und GitHub-Integration