Executando Gemma 4 26B-A4B Localmente com LM Studio 0.4.0 CLI

O que o LM Studio 0.4.0 Adiciona para IA Local

O LM Studio 0.4.0 muda fundamentalmente a arquitetura ao extrair o motor de inferência principal para o llmster, um servidor independente. Isso permite executar o LM Studio inteiramente pela linha de comando usando o novo CLI lms, eliminando a necessidade da interface gráfica. A atualização o torna utilizável em servidores sem interface, em pipelines de CI/CD, sessões SSH ou para desenvolvedores focados no terminal.

Principais Recursos na Versão 0.4.0

Daemon llmster: Um serviço em segundo plano que gerencia o carregamento e a inferência de modelos sem o aplicativo desktop
CLI lms: Interface completa de linha de comando para baixar, carregar, conversar e servir modelos
Processamento paralelo de solicitações: Agrupamento contínuo em vez de enfileiramento sequencial, permitindo que múltiplas solicitações ao mesmo modelo sejam executadas simultaneamente
API REST com estado: Um novo endpoint /v1/chat que mantém o histórico da conversa entre solicitações
Integração MCP: Suporte ao Model Context Protocol local com controle por chave de permissão

Por que o Gemma 4 26B-A4B para Uso Local

O Gemma 4 26B-A4B do Google usa uma arquitetura de mistura de especialistas com 128 especialistas mais 1 especialista compartilhado, mas ativa apenas 8 especialistas (3,8 bilhões de parâmetros) por token. Isso significa que ele roda bem em hardware que não suportaria um modelo denso de 26B. Em um MacBook Pro M4 Pro de 14" com 48GB de memória unificada, ele se encaixa confortavelmente e gera a 51 tokens/segundo.

O modelo pontua 82,6% no MMLU Pro e 88,3% no AIME 2026, próximo da variante densa de 31B (85,2% e 89,2%) enquanto roda significativamente mais rápido. Ele alcança uma pontuação Elo de ~1441, competindo com modelos como o Qwen 3.5 397B-A17B (~1450 Elo) que exigem 100-600B de parâmetros totais.

Principais capacidades incluem contexto máximo de 256K, suporte a visão para análise de capturas de tela e diagramas, chamada nativa de funções/ferramentas e raciocínio com modos de pensamento configuráveis.

Configuração Prática

O artigo percorre a instalação do CLI lms e a configuração do Gemma 4 26B-A4B para inferência local que pode ser usada com o Claude Code. O autor observa desacelerações significativas quando usado dentro do Claude Code em sua experiência.

📖 Leia a fonte completa: HN AI Agents

Executando o Google Gemma 4 26B-A4B Localmente com LM Studio 0.4.0 Headless CLI

O que o LM Studio 0.4.0 Adiciona para IA Local

Principais Recursos na Versão 0.4.0

Por que o Gemma 4 26B-A4B para Uso Local

Configuração Prática

👀 See Also

Bibliotecário de Livros: Acompanhe Sua Leitura, Receba Recomendações Sem Spoilers

Quatro Habilidades do ClawHub para Dados de Busca em Tempo Real em Agentes de IA

Método de Evolução de Código Triplica o Desempenho do LLM no Benchmark ARC-AGI-2

Gateway de Contexto: Um Proxy de Código Aberto para Comprimir o Contexto de Agentes de IA