Exécuter Google Gemma 4 26B-A4B en local avec LM Studio 0.4.0 en mode CLI sans interface

✍️ OpenClawRadar📅 Publié: April 15, 2026🔗 Source
Exécuter Google Gemma 4 26B-A4B en local avec LM Studio 0.4.0 en mode CLI sans interface
Ad

Ce qu'apporte LM Studio 0.4.0 pour l'IA locale

LM Studio 0.4.0 modifie fondamentalement l'architecture en extrayant le moteur d'inférence principal dans llmster, un serveur autonome. Cela permet d'exécuter LM Studio entièrement depuis la ligne de commande en utilisant le nouveau CLI lms, éliminant le besoin de l'interface graphique. Cette mise à jour le rend utilisable sur des serveurs sans interface, dans des pipelines CI/CD, des sessions SSH, ou pour les développeurs axés sur le terminal.

Fonctionnalités clés de la version 0.4.0

  • Démon llmster : Un service en arrière-plan qui gère le chargement des modèles et l'inférence sans l'application de bureau
  • CLI lms : Interface complète en ligne de commande pour télécharger, charger, discuter et servir des modèles
  • Traitement parallèle des requêtes : Batching continu au lieu de la mise en file d'attente séquentielle, permettant à plusieurs requêtes vers le même modèle de s'exécuter simultanément
  • API REST avec état : Un nouveau point de terminaison /v1/chat qui conserve l'historique des conversations entre les requêtes
  • Intégration MCP : Prise en charge locale du protocole de contexte de modèle avec contrôle par clé d'autorisation
Ad

Pourquoi Gemma 4 26B-A4B pour un usage local

Gemma 4 26B-A4B de Google utilise une architecture de mélange d'experts avec 128 experts plus 1 expert partagé, mais n'active que 8 experts (3,8 milliards de paramètres) par token. Cela signifie qu'il fonctionne bien sur du matériel qui ne pourrait pas gérer un modèle dense de 26 milliards de paramètres. Sur un MacBook Pro M4 Pro 14 pouces avec 48 Go de mémoire unifiée, il s'installe confortablement et génère à 51 tokens/seconde.

Le modèle obtient 82,6 % sur MMLU Pro et 88,3 % sur AIME 2026, proche de la variante dense 31B (85,2 % et 89,2 %) tout en fonctionnant considérablement plus vite. Il atteint un score Elo d'environ 1441, rivalisant avec des modèles comme Qwen 3.5 397B-A17B (~1450 Elo) qui nécessitent 100 à 600 milliards de paramètres totaux.

Les capacités clés incluent un contexte maximum de 256K, la prise en charge de la vision pour analyser des captures d'écran et des diagrammes, l'appel natif de fonctions/outils, et le raisonnement avec des modes de pensée configurables.

Configuration pratique

L'article décrit l'installation du CLI lms et la configuration de Gemma 4 26B-A4B pour une inférence locale qui peut être utilisée avec Claude Code. L'auteur note des ralentissements significatifs lors de l'utilisation dans Claude Code d'après son expérience.

📖 Read the full source: HN AI Agents

Ad

👀 See Also

DocMason : Base de connaissances d'agent local pour les fichiers bureautiques complexes
Tools

DocMason : Base de connaissances d'agent local pour les fichiers bureautiques complexes

DocMason est une application agent native de dépôt qui construit des bases de connaissances locales à partir de documents bureautiques complexes comme les PPTX, DOCX, Excel et PDF. Il fonctionne entièrement dans Codex ou Claude Code, en conservant la structure des documents et en fournissant des réponses traçables avec leur provenance.

OpenClawRadar
Tacit : un langage de programmation pensé pour les LLM, construit avec Claude Code et Opus 4.7
Tools

Tacit : un langage de programmation pensé pour les LLM, construit avec Claude Code et Opus 4.7

Tacit est un langage de programmation expérimental conçu pour les LLM, créé et implémenté à l'aide de Claude Code et Opus 4.7. Il élimine les commodités humaines pour minimiser l'utilisation de tokens et est livré avec un primer qui apprend aux LLM de milieu de gamme et supérieurs (Sonnet et au-dessus) à écrire du code Tacit.

OpenClawRadar
Serveur MCP LocalSynapse Permet à Claude de Rechercher des Documents Locaux Hors Ligne
Tools

Serveur MCP LocalSynapse Permet à Claude de Rechercher des Documents Locaux Hors Ligne

LocalSynapse est un serveur MCP qui indexe et recherche dans des documents locaux (Word, Excel, PowerPoint, PDF) en utilisant une recherche sémantique hybride BM25 + IA. Tout fonctionne localement, sans nécessiter de cloud ni de clés API.

OpenClawRadar
Claude Code Ajoute une Fonction de Contrôle à Distance pour la Gestion des Sessions Mobiles
Tools

Claude Code Ajoute une Fonction de Contrôle à Distance pour la Gestion des Sessions Mobiles

Claude Code permet désormais aux développeurs de démarrer des tâches dans leur terminal et de continuer à contrôler les sessions depuis des appareils mobiles via l'application Claude ou claude.ai/code, tandis que Claude s'exécute localement sur leur machine.

OpenClawRadar