Gemma 4 26B-A4B Local: Cómo Ejecutar con LM Studio 0.4.0 CLI

Lo que LM Studio 0.4.0 aporta para la IA local

LM Studio 0.4.0 cambia fundamentalmente la arquitectura al extraer el motor de inferencia principal en llmster, un servidor independiente. Esto permite ejecutar LM Studio completamente desde la línea de comandos usando la nueva CLI lms, eliminando la necesidad de la interfaz gráfica. La actualización lo hace utilizable en servidores sin interfaz gráfica, en pipelines de CI/CD, sesiones SSH o para desarrolladores enfocados en la terminal.

Características clave en 0.4.0

Daemon llmster: Un servicio en segundo plano que gestiona la carga de modelos y la inferencia sin la aplicación de escritorio
CLI lms: Interfaz de línea de comandos completa para descargar, cargar, chatear y servir modelos
Procesamiento paralelo de solicitudes: Procesamiento por lotes continuo en lugar de colas secuenciales, permitiendo que múltiples solicitudes al mismo modelo se ejecuten concurrentemente
API REST con estado: Un nuevo endpoint /v1/chat que mantiene el historial de conversación entre solicitudes
Integración MCP: Soporte local para el Protocolo de Contexto de Modelo con control por clave de permisos

Por qué Gemma 4 26B-A4B para uso local

El Gemma 4 26B-A4B de Google utiliza una arquitectura de mezcla de expertos con 128 expertos más 1 experto compartido, pero solo activa 8 expertos (3.8B parámetros) por token. Esto significa que funciona bien en hardware que no podría manejar un modelo denso de 26B. En un MacBook Pro M4 Pro de 14" con 48GB de memoria unificada, cabe cómodamente y genera a 51 tokens/segundo.

El modelo obtiene 82.6% en MMLU Pro y 88.3% en AIME 2026, cercano a la variante densa de 31B (85.2% y 89.2%) mientras funciona notablemente más rápido. Logra una puntuación Elo de ~1441, compitiendo con modelos como Qwen 3.5 397B-A17B (~1450 Elo) que requieren 100-600B parámetros totales.

Capacidades clave incluyen contexto máximo de 256K, soporte de visión para analizar capturas de pantalla y diagramas, llamadas nativas a funciones/herramientas, y razonamiento con modos de pensamiento configurables.

Configuración práctica

El artículo guía a través de la instalación de la CLI lms y la configuración de Gemma 4 26B-A4B para inferencia local que puede usarse con Claude Code. El autor nota ralentizaciones significativas cuando se usa dentro de Claude Code según su experiencia.

📖 Leer la fuente completa: HN AI Agents

Ejecutando Google Gemma 4 26B-A4B Localmente con LM Studio 0.4.0 Headless CLI

Lo que LM Studio 0.4.0 aporta para la IA local

Características clave en 0.4.0

Por qué Gemma 4 26B-A4B para uso local

Configuración práctica

👀 Ver también

Strale.io ofrece una API gratuita de validación de IBAN y correo electrónico para agentes de IA sin necesidad de registro.

OmniCoder-9B ajustado muestra un rendimiento sólido para la codificación de agentes en sistemas con 8 GB de VRAM.

Habilidad de Código Claude /consejo Ejecuta Prompts en Paralelo en 4 Modelos de IA

Complemento de código Claude de código abierto simula la Oficina del Director de Datos e IA con 22 agentes especializados.