Gemma 4 26B-A4B en local : LM Studio 0.4.0 CLI sans interface

Ce qu'apporte LM Studio 0.4.0 pour l'IA locale

LM Studio 0.4.0 modifie fondamentalement l'architecture en extrayant le moteur d'inférence principal dans llmster, un serveur autonome. Cela permet d'exécuter LM Studio entièrement depuis la ligne de commande en utilisant le nouveau CLI lms, éliminant le besoin de l'interface graphique. Cette mise à jour le rend utilisable sur des serveurs sans interface, dans des pipelines CI/CD, des sessions SSH, ou pour les développeurs axés sur le terminal.

Fonctionnalités clés de la version 0.4.0

Démon llmster : Un service en arrière-plan qui gère le chargement des modèles et l'inférence sans l'application de bureau
CLI lms : Interface complète en ligne de commande pour télécharger, charger, discuter et servir des modèles
Traitement parallèle des requêtes : Batching continu au lieu de la mise en file d'attente séquentielle, permettant à plusieurs requêtes vers le même modèle de s'exécuter simultanément
API REST avec état : Un nouveau point de terminaison /v1/chat qui conserve l'historique des conversations entre les requêtes
Intégration MCP : Prise en charge locale du protocole de contexte de modèle avec contrôle par clé d'autorisation

Pourquoi Gemma 4 26B-A4B pour un usage local

Gemma 4 26B-A4B de Google utilise une architecture de mélange d'experts avec 128 experts plus 1 expert partagé, mais n'active que 8 experts (3,8 milliards de paramètres) par token. Cela signifie qu'il fonctionne bien sur du matériel qui ne pourrait pas gérer un modèle dense de 26 milliards de paramètres. Sur un MacBook Pro M4 Pro 14 pouces avec 48 Go de mémoire unifiée, il s'installe confortablement et génère à 51 tokens/seconde.

Le modèle obtient 82,6 % sur MMLU Pro et 88,3 % sur AIME 2026, proche de la variante dense 31B (85,2 % et 89,2 %) tout en fonctionnant considérablement plus vite. Il atteint un score Elo d'environ 1441, rivalisant avec des modèles comme Qwen 3.5 397B-A17B (~1450 Elo) qui nécessitent 100 à 600 milliards de paramètres totaux.

Les capacités clés incluent un contexte maximum de 256K, la prise en charge de la vision pour analyser des captures d'écran et des diagrammes, l'appel natif de fonctions/outils, et le raisonnement avec des modes de pensée configurables.

Configuration pratique

L'article décrit l'installation du CLI lms et la configuration de Gemma 4 26B-A4B pour une inférence locale qui peut être utilisée avec Claude Code. L'auteur note des ralentissements significatifs lors de l'utilisation dans Claude Code d'après son expérience.

📖 Read the full source: HN AI Agents

Exécuter Google Gemma 4 26B-A4B en local avec LM Studio 0.4.0 en mode CLI sans interface

Ce qu'apporte LM Studio 0.4.0 pour l'IA locale

Fonctionnalités clés de la version 0.4.0

Pourquoi Gemma 4 26B-A4B pour un usage local

Configuration pratique

👀 See Also

Stagent : Couche opérationnelle open-source pour le SDK Agent Claude avec gouvernance locale et orchestration de flux de travail

Système à 2 invites pour transporter le contexte entre les discussions Claude sans gaspillage de jetons

Audit SecureCode : Un auditeur de sécurité de serveur Linux construit avec Claude Code

Exploration de LiveDocs : Un carnet d'analyse de données natif pour l'IA