Ejecutando Google Gemma 4 26B-A4B Localmente con LM Studio 0.4.0 Headless CLI

Lo que LM Studio 0.4.0 aporta para la IA local
LM Studio 0.4.0 cambia fundamentalmente la arquitectura al extraer el motor de inferencia principal en llmster, un servidor independiente. Esto permite ejecutar LM Studio completamente desde la línea de comandos usando la nueva CLI lms, eliminando la necesidad de la interfaz gráfica. La actualización lo hace utilizable en servidores sin interfaz gráfica, en pipelines de CI/CD, sesiones SSH o para desarrolladores enfocados en la terminal.
Características clave en 0.4.0
- Daemon llmster: Un servicio en segundo plano que gestiona la carga de modelos y la inferencia sin la aplicación de escritorio
- CLI lms: Interfaz de línea de comandos completa para descargar, cargar, chatear y servir modelos
- Procesamiento paralelo de solicitudes: Procesamiento por lotes continuo en lugar de colas secuenciales, permitiendo que múltiples solicitudes al mismo modelo se ejecuten concurrentemente
- API REST con estado: Un nuevo endpoint /v1/chat que mantiene el historial de conversación entre solicitudes
- Integración MCP: Soporte local para el Protocolo de Contexto de Modelo con control por clave de permisos
Por qué Gemma 4 26B-A4B para uso local
El Gemma 4 26B-A4B de Google utiliza una arquitectura de mezcla de expertos con 128 expertos más 1 experto compartido, pero solo activa 8 expertos (3.8B parámetros) por token. Esto significa que funciona bien en hardware que no podría manejar un modelo denso de 26B. En un MacBook Pro M4 Pro de 14" con 48GB de memoria unificada, cabe cómodamente y genera a 51 tokens/segundo.
El modelo obtiene 82.6% en MMLU Pro y 88.3% en AIME 2026, cercano a la variante densa de 31B (85.2% y 89.2%) mientras funciona notablemente más rápido. Logra una puntuación Elo de ~1441, compitiendo con modelos como Qwen 3.5 397B-A17B (~1450 Elo) que requieren 100-600B parámetros totales.
Capacidades clave incluyen contexto máximo de 256K, soporte de visión para analizar capturas de pantalla y diagramas, llamadas nativas a funciones/herramientas, y razonamiento con modos de pensamiento configurables.
Configuración práctica
El artículo guía a través de la instalación de la CLI lms y la configuración de Gemma 4 26B-A4B para inferencia local que puede usarse con Claude Code. El autor nota ralentizaciones significativas cuando se usa dentro de Claude Code según su experiencia.
📖 Leer la fuente completa: HN AI Agents
👀 Ver también

Resultados de la Prueba A/B: Los Hooks de oh-my-claudecode Muestran un Impacto Mínimo en el Rendimiento de Claude Code
Un desarrollador gastó el 7% de sus tokens semanales Max20 probando ganchos oh-my-claudecode con Claude Sonnet 4.6, sin encontrar mejoras significativas en la calidad del código o el costo para una tarea de programación de sesión única.

Claude Code v2.1.143: Aplicación de dependencias de complementos, valores predeterminados de PowerShell y correcciones de sesión en segundo plano
Anthropic lanzó Claude Code v2.1.143 con aplicación de dependencias de plugins, PowerShell -ExecutionPolicy Bypass, nueva opción de aislamiento de worktree y numerosas correcciones para sesiones en segundo plano, Windows Terminal y acceso a archivos en macOS.
Usar un chat adversarial de Claude para detectar ambigüedades iniciales antes de que te cuesten caro
Un desarrollador añadió un segundo chat de Claude cuya única función es revisar de manera adversaria los kickoffs en busca de especificaciones ambiguas y fallos silenciosos, ahorrando un estimado de $150-400 en retrabajo de Claude Code en una fase del proyecto.

Discusión de Reddit: Los archivos Identity.md son insuficientes para la estabilidad de la personalidad de empleados de IA sin una arquitectura de modelo adecuada.
Una discusión en Reddit argumenta que ajustar archivos identity.md para prevenir la mezcla de personalidades en equipos de empleados de IA es ineficaz si la arquitectura subyacente del modelo solo simula la separación de roles. La publicación recomienda usar el backend Minimax M2.7, que incorporó la conciencia de límites en el entrenamiento base a través de más de 100 ciclos de autoevolución.