Gemma 4 Lançado: 4 Tamanhos de Modelo para IA Local

Especificações do Modelo Gemma 4

O Gemma 4 agora está disponível como um modelo de IA auto-hospedado com quatro configurações distintas para diferentes cenários de hardware. De acordo com a fonte, ele não compete com Claude, Codex ou Gemini, mas é posicionado como uma opção prática para cenários de roteamento múltiplo onde um modelo auto-hospedado pequeno e capaz pode economizar tokens.

Variantes do Modelo e Requisitos de Hardware

E2B (2,3 bilhões de parâmetros efetivos): Construído para dispositivos de borda como telefones e Raspberry Pi. Requer ~4-8GB de RAM e roda bem em uma CPU. Recomendado para hospedagem em VPS.
E4B (4,5 bilhões de parâmetros efetivos): Construído para laptops e hardware de baixo custo. Mantém uma pegada de memória baixa.
26B MoE (25B total, 3,8B ativos): Construído para GPUs de consumo. Opera em velocidades de inferência semelhantes a um modelo de 4B.
31B Denso: Construído para GPUs de médio porte e estações de trabalho. Requer aproximadamente 16-20GB de VRAM ao usar quantização de 4 bits.

Capacidades e Disponibilidade

Todos os modelos Gemma 4 são multimodais com capacidades de texto e visão. Os modelos de borda E2B e E4B especificamente suportam áudio em tempo real. Os modelos são construídos para raciocínio avançado e fluxos de trabalho agentivos.

O Gemma 4 está disponível no Google AI Studio, Hugging Face, Kaggle e Ollama.

📖 Leia a fonte completa: r/openclaw