Executando o Google Gemma 4 26B-A4B Localmente com LM Studio 0.4.0 Headless CLI

✍️ OpenClawRadar📅 Publicado: April 15, 2026🔗 Source
Executando o Google Gemma 4 26B-A4B Localmente com LM Studio 0.4.0 Headless CLI
Ad

O que o LM Studio 0.4.0 Adiciona para IA Local

O LM Studio 0.4.0 muda fundamentalmente a arquitetura ao extrair o motor de inferência principal para o llmster, um servidor independente. Isso permite executar o LM Studio inteiramente pela linha de comando usando o novo CLI lms, eliminando a necessidade da interface gráfica. A atualização o torna utilizável em servidores sem interface, em pipelines de CI/CD, sessões SSH ou para desenvolvedores focados no terminal.

Principais Recursos na Versão 0.4.0

  • Daemon llmster: Um serviço em segundo plano que gerencia o carregamento e a inferência de modelos sem o aplicativo desktop
  • CLI lms: Interface completa de linha de comando para baixar, carregar, conversar e servir modelos
  • Processamento paralelo de solicitações: Agrupamento contínuo em vez de enfileiramento sequencial, permitindo que múltiplas solicitações ao mesmo modelo sejam executadas simultaneamente
  • API REST com estado: Um novo endpoint /v1/chat que mantém o histórico da conversa entre solicitações
  • Integração MCP: Suporte ao Model Context Protocol local com controle por chave de permissão
Ad

Por que o Gemma 4 26B-A4B para Uso Local

O Gemma 4 26B-A4B do Google usa uma arquitetura de mistura de especialistas com 128 especialistas mais 1 especialista compartilhado, mas ativa apenas 8 especialistas (3,8 bilhões de parâmetros) por token. Isso significa que ele roda bem em hardware que não suportaria um modelo denso de 26B. Em um MacBook Pro M4 Pro de 14" com 48GB de memória unificada, ele se encaixa confortavelmente e gera a 51 tokens/segundo.

O modelo pontua 82,6% no MMLU Pro e 88,3% no AIME 2026, próximo da variante densa de 31B (85,2% e 89,2%) enquanto roda significativamente mais rápido. Ele alcança uma pontuação Elo de ~1441, competindo com modelos como o Qwen 3.5 397B-A17B (~1450 Elo) que exigem 100-600B de parâmetros totais.

Principais capacidades incluem contexto máximo de 256K, suporte a visão para análise de capturas de tela e diagramas, chamada nativa de funções/ferramentas e raciocínio com modos de pensamento configuráveis.

Configuração Prática

O artigo percorre a instalação do CLI lms e a configuração do Gemma 4 26B-A4B para inferência local que pode ser usada com o Claude Code. O autor observa desacelerações significativas quando usado dentro do Claude Code em sua experiência.

📖 Leia a fonte completa: HN AI Agents

Ad

👀 See Also

Agente de Trading de IA com Salvaguardas de Risco para Investimento Educacional
Tools

Agente de Trading de IA com Salvaguardas de Risco para Investimento Educacional

Um desenvolvedor criou um assistente de negociação com IA que conecta o Claude a uma conta de corretora com um mecanismo de risco entre a IA e o dinheiro. O sistema inclui verificações de segurança como bloquear negociações que excedam 50% da alocação da carteira, desligamento automático com perda diária de 3% e um botão de emergência para perdas de 20%.

OpenClawRadar
Seis ferramentas de código aberto que abordam os problemas de segurança, custo e complexidade do OpenClaw
Tools

Seis ferramentas de código aberto que abordam os problemas de segurança, custo e complexidade do OpenClaw

Um desenvolvedor testou seis ferramentas da comunidade para resolver as lacunas de segurança do OpenClaw sinalizadas pela Cisco, custos crescentes e configuração complexa. ClawSec fornece varredura de segurança e verificação de integridade, Antfarm permite fluxos de trabalho multiagente determinísticos e LanceDB Pro melhora a recuperação de memória com busca vetorial híbrida.

OpenClawRadar
Seis Repositórios do GitHub para Desenvolvimento de Código com Claude
Tools

Seis Repositórios do GitHub para Desenvolvimento de Código com Claude

Um usuário do Reddit testou e compartilhou seis repositórios do GitHub projetados para melhorar projetos Claude Code, incluindo ferramentas para desenvolvimento estruturado, geração de interface, gerenciamento de tarefas, memória, exploração de ecossistema e automação de fluxo de trabalho.

OpenClawRadar
MLJAR Studio: Analista de Dados de IA Local que Gera Notebooks Reprodutíveis
Tools

MLJAR Studio: Analista de Dados de IA Local que Gera Notebooks Reprodutíveis

MLJAR Studio é um aplicativo de desktop que transforma perguntas em linguagem natural em notebooks Python executados localmente, com AutoML para dados tabulares e suporte para LLMs locais via Ollama.

OpenClawRadar