Gemma 4 Lanzada: Cuatro Tamaños de Modelo para Alojamiento Local de IA

Especificaciones del Modelo Gemma 4
Gemma 4 ya está disponible como un modelo de IA autoalojado con cuatro configuraciones distintas para diferentes escenarios de hardware. Según la fuente, no compite con Claude, Codex o Gemini, sino que se posiciona como una opción práctica para escenarios de enrutamiento múltiple donde un modelo autoalojado pequeño y capaz puede ahorrar tokens.
Variantes del Modelo y Requisitos de Hardware
- E2B (2.3 mil millones de parámetros efectivos): Diseñado para dispositivos de borde como teléfonos y Raspberry Pi. Requiere ~4-8 GB de RAM y funciona bien en una CPU. Recomendado para alojar en VPS.
- E4B (4.5 mil millones de parámetros efectivos): Diseñado para portátiles y hardware de gama baja. Mantiene una huella de memoria baja.
- 26B MoE (25 mil millones totales, 3.8 mil millones activos): Diseñado para GPUs de consumo. Funciona a velocidades de inferencia similares a un modelo de 4B.
- 31B Denso: Diseñado para GPUs de gama media y estaciones de trabajo. Requiere aproximadamente 16-20 GB de VRAM cuando se usa cuantización de 4 bits.
Capacidades y Disponibilidad
Todos los modelos Gemma 4 son multimodales con capacidades tanto de texto como de visión. Los modelos de borde E2B y E4B admiten específicamente audio en tiempo real. Los modelos están diseñados para razonamiento avanzado y flujos de trabajo agentes.
Gemma 4 está disponible en Google AI Studio, Hugging Face, Kaggle y Ollama.
📖 Read the full source: r/openclaw
👀 Ver también

Claude App Ocupa el Segundo Lugar en la App Store de EE. UU. Tras Disputa con el Pentágono
La aplicación de chatbot Claude de Anthropic ascendió al segundo lugar entre las aplicaciones gratuitas en la App Store de Apple en Estados Unidos, escalando desde fuera del top 100 a finales de enero hasta la segunda posición a finales de febrero de 2026. Este aumento siguió a las negociaciones públicas de la empresa con el Pentágono sobre restricciones en el uso de IA.

El ruido de fondo del vibe-coding: Cómo la bazofia de IA está asfixiando a las comunidades de desarrolladores
rmoff critica el constante flujo de contenido generado por IA de baja calidad en comunidades de desarrolladores, desde repositorios de GitHub sin sentido hasta publicaciones fantasma en blogs, y explica por qué está alejando la participación orgánica.

Investigación: Los agentes de Claude Code muestran contenido de MEMORY.md no verificado debido a cambios de compactación
Un usuario informa que los agentes de Claude Code están mostrando contenido de MEMORY.md sin volver a verificarlo a mitad de la tarea, relacionado con cambios en la compactación en las versiones 2.1.139 y 2.1.141. Dos factores agravantes: la conservación agresiva de las 'instrucciones del usuario' y un error en los umbrales de autocompactación.

Usuario de Reddit informa 18.8 tok/s en inferencia por CPU con Qwen 3 30B Q4 en Zen 4.
Un usuario en r/LocalLLaMA probó Qwen 3 30B Q4 en CPU y logró 18.8 tokens por segundo con un procesador Zen 4 y memoria DDR5, superando significativamente las expectativas de 3-5 tok/s.