Gemma 4 26B-A4B lokal: LM Studio 0.4.0 Headless CLI Setup

Was LM Studio 0.4.0 für lokale KI hinzufügt

LM Studio 0.4.0 verändert die Architektur grundlegend, indem die Kerninferenz-Engine in llmster extrahiert wird, einen eigenständigen Server. Dies ermöglicht das Ausführen von LM Studio vollständig über die Befehlszeile mit der neuen lms CLI, wodurch die GUI überflüssig wird. Das Update macht es auf Servern ohne Benutzeroberfläche, in CI/CD-Pipelines, SSH-Sitzungen oder für terminalorientierte Entwickler nutzbar.

Wichtige Funktionen in 0.4.0

llmster-Daemon: Ein Hintergrunddienst, der Modellladung und Inferenz ohne Desktop-App verwaltet
lms CLI: Vollständige Befehlszeilenschnittstelle zum Herunterladen, Laden, Chatten und Bereitstellen von Modellen
Parallele Anfrageverarbeitung: Kontinuierliches Batching statt sequenzieller Warteschlangen, sodass mehrere Anfragen an dasselbe Modell gleichzeitig laufen können
Statusbehaftete REST-API: Ein neuer /v1/chat-Endpunkt, der die Konversationshistorie über Anfragen hinweg beibehält
MCP-Integration: Lokale Model Context Protocol-Unterstützung mit Berechtigungsschlüssel-Steuerung

Warum Gemma 4 26B-A4B für lokale Nutzung

Googles Gemma 4 26B-A4B verwendet eine Mixture-of-Experts-Architektur mit 128 Experten plus 1 geteiltem Experten, aktiviert aber nur 8 Experten (3,8 Milliarden Parameter) pro Token. Das bedeutet, es läuft gut auf Hardware, die kein dichtes 26-Milliarden-Modell bewältigen könnte. Auf einem 14" MacBook Pro M4 Pro mit 48 GB vereinheitlichtem Speicher passt es bequem und generiert mit 51 Token/Sekunde.

Das Modell erzielt 82,6 % bei MMLU Pro und 88,3 % bei AIME 2026, nahe an der dichten 31-Milliarden-Variante (85,2 % und 89,2 %), während es deutlich schneller läuft. Es erreicht einen Elo-Score von ~1441 und konkurriert mit Modellen wie Qwen 3.5 397B-A17B (~1450 Elo), die 100–600 Milliarden Gesamtparameter benötigen.

Wichtige Fähigkeiten umfassen 256K maximalen Kontext, Vision-Unterstützung zur Analyse von Screenshots und Diagrammen, native Funktions-/Tool-Aufrufe und Denken mit konfigurierbaren Denkmodi.

Praktische Einrichtung

Der Artikel führt durch die Installation der lms CLI und die Einrichtung von Gemma 4 26B-A4B für lokale Inferenz, die mit Claude Code verwendet werden kann. Der Autor bemerkt aus seiner Erfahrung erhebliche Verlangsamungen bei der Nutzung innerhalb von Claude Code.

📖 Read the full source: HN AI Agents

Google Gemma 4 26B-A4B lokal mit LM Studio 0.4.0 Headless CLI ausführen

Was LM Studio 0.4.0 für lokale KI hinzufügt

Wichtige Funktionen in 0.4.0

Warum Gemma 4 26B-A4B für lokale Nutzung

Praktische Einrichtung

👀 Siehe auch

FlowBoard v5: Ereignisgestützter Projektarbeitsplatz für Multi-Agenten-Teams

Werld: Offene künstliche Lebenssimulation mit sich entwickelnden neuronalen Netzen

AgentPeek: Open-Source-Dashboard zur Überwachung von Claude-Code-Agent-Teams

RelayCode VS Code Extension leitet Claude-Code über souveräne RDUs weiter