Google Gemma 4 26B-A4B lokal mit LM Studio 0.4.0 Headless CLI ausführen

Was LM Studio 0.4.0 für lokale KI hinzufügt
LM Studio 0.4.0 verändert die Architektur grundlegend, indem die Kerninferenz-Engine in llmster extrahiert wird, einen eigenständigen Server. Dies ermöglicht das Ausführen von LM Studio vollständig über die Befehlszeile mit der neuen lms CLI, wodurch die GUI überflüssig wird. Das Update macht es auf Servern ohne Benutzeroberfläche, in CI/CD-Pipelines, SSH-Sitzungen oder für terminalorientierte Entwickler nutzbar.
Wichtige Funktionen in 0.4.0
- llmster-Daemon: Ein Hintergrunddienst, der Modellladung und Inferenz ohne Desktop-App verwaltet
- lms CLI: Vollständige Befehlszeilenschnittstelle zum Herunterladen, Laden, Chatten und Bereitstellen von Modellen
- Parallele Anfrageverarbeitung: Kontinuierliches Batching statt sequenzieller Warteschlangen, sodass mehrere Anfragen an dasselbe Modell gleichzeitig laufen können
- Statusbehaftete REST-API: Ein neuer /v1/chat-Endpunkt, der die Konversationshistorie über Anfragen hinweg beibehält
- MCP-Integration: Lokale Model Context Protocol-Unterstützung mit Berechtigungsschlüssel-Steuerung
Warum Gemma 4 26B-A4B für lokale Nutzung
Googles Gemma 4 26B-A4B verwendet eine Mixture-of-Experts-Architektur mit 128 Experten plus 1 geteiltem Experten, aktiviert aber nur 8 Experten (3,8 Milliarden Parameter) pro Token. Das bedeutet, es läuft gut auf Hardware, die kein dichtes 26-Milliarden-Modell bewältigen könnte. Auf einem 14" MacBook Pro M4 Pro mit 48 GB vereinheitlichtem Speicher passt es bequem und generiert mit 51 Token/Sekunde.
Das Modell erzielt 82,6 % bei MMLU Pro und 88,3 % bei AIME 2026, nahe an der dichten 31-Milliarden-Variante (85,2 % und 89,2 %), während es deutlich schneller läuft. Es erreicht einen Elo-Score von ~1441 und konkurriert mit Modellen wie Qwen 3.5 397B-A17B (~1450 Elo), die 100–600 Milliarden Gesamtparameter benötigen.
Wichtige Fähigkeiten umfassen 256K maximalen Kontext, Vision-Unterstützung zur Analyse von Screenshots und Diagrammen, native Funktions-/Tool-Aufrufe und Denken mit konfigurierbaren Denkmodi.
Praktische Einrichtung
Der Artikel führt durch die Installation der lms CLI und die Einrichtung von Gemma 4 26B-A4B für lokale Inferenz, die mit Claude Code verwendet werden kann. Der Autor bemerkt aus seiner Erfahrung erhebliche Verlangsamungen bei der Nutzung innerhalb von Claude Code.
📖 Read the full source: HN AI Agents
👀 Siehe auch

Colony: Eine lokale Koordinationsschicht, die Multi-Agent-Handoff-Token von 30K auf 400 reduziert
Colony ist eine lokale erste Koordinationsschicht, die die Kosten für den Agentenwechsel von ~30.000 Token auf ~400 Token senkt, indem sie die Kontexterstellung durch kompakte Beobachtungen ersetzt, die in SQLite gespeichert werden.

Warum deterministische Workflows die KI-gesteuerte Orchestrierung für Agentensysteme übertreffen
Ein Entwickler mit einem Jahr Erfahrung im Aufbau von Agentensystemen teilt mit, dass KI-gesteuerte Orchestrierung aufgrund nicht-deterministischer Routing-Entscheidungen, sich aufschaukelnder Fehler, explodierender Kosten und unmöglicher Fehlersuche nicht zuverlässig funktionierte. Der Wechsel zu deterministischen Workflows mit codebasierter Orchestrierung beseitigte die Orchestrierungsfehler.

DeepSeek Reasonix: Nativer Codierungsagent mit hohem Caching und niedrigen Kosten
Reasonix ist ein auf DeepSeek spezialisierter KI-Coding-Agent für das Terminal, der auf hohe Cache-Effizienz und niedrige Inferenzkosten setzt.

DeepSeek V4 Flash liefert nahe Opus-Qualität für lokale LLMs vor Ort
Reddit-Benutzer berichtet, dass DeepSeek 4 Flash für lokale KI-Agenten mit vertraulichen Daten eine Leistung nahe Opus-Niveau erreicht und einen lokalen Einsatz ohne AWS ermöglicht. Läuft lokal mit NVIDIA-GPUs, aber bei 1M Token immer noch langsam.