Gemma 4 E2B Probado como Coordinador Multi-Agente en un Framework de TypeScript

Capacidades del Coordinador Probadas
La prueba evaluó si Gemma 4 E2B podía manejar el rol de coordinador en un sistema multiagente, específicamente: tomar un objetivo en lenguaje natural, dividirlo en un gráfico de tareas, asignar agentes, llamar herramientas y unir resultados.
Implementación Técnica
El framework utilizado fue open-multi-agent (TypeScript, código abierto) con Ollama a través de una API compatible con OpenAI. El coordinador recibe un objetivo y una lista de agentes, luego genera un array de tareas JSON con título, descripción, asignado y dependencias. Los agentes ejecutan con capacidades de llamada de herramientas incluyendo operaciones bash y lectura/escritura de archivos.
Detalles del Modelo
Gemma 4 E2B ("Effective 2B") tiene 2.300 millones de parámetros efectivos y 5.100 millones de parámetros totales. Los ~2.800 millones de parámetros adicionales son para la capa de embeddings que soporta más de 140 idiomas y capacidades multimodales.
Escenario de Prueba
El objetivo proporcionado fue: "Verificar la versión de Node.js de esta máquina, la versión de npm y la información del sistema operativo, luego escribir un breve informe en Markdown en /tmp/report.md"
E2B correctamente:
- Lo dividió en 2 tareas con una dependencia (investigador → resumidor)
- Asignó cada una al agente correcto
- Usó bash para ejecutar comandos del sistema
- Usó file_write para guardar el informe
- Sintetizó la salida final
Tanto runTasks() (pipeline explícito) como runTeam() (el modelo planifica todo autónomamente) funcionaron.
Rendimiento y Observaciones
En un M1 con 16GB de RAM:
runTeam()completo toma ~2 minutos- 6–9 llamadas secuenciales de LLM internamente (planificación del coordinador → uso multi-turn de herramientas del investigador → resumidor → síntesis del coordinador)
- ~10–15 segundos por llamada en M1
- E2B usa ~3–4 GB de RAM sin presión de memoria
Lo que funcionó bien:
- Salida JSON: El coordinador produjo el esquema correcto para la descomposición de tareas. El framework tiene análisis tolerante que primero intenta bloques delimitados, luego recurre a extracción de array simple.
- Llamada de herramientas: Funciona a través del endpoint compatible con OpenAI, decidiendo correctamente cuándo llamar, analizando argumentos y manejando resultados multi-turn.
Limitaciones observadas:
- Calidad de salida: La prosa en la síntesis final es notablemente más débil que en modelos más grandes. Funcional pero no pulida.
Pasos de Reproducción
ollama pull gemma4:e2b
git clone https://github.com/JackChen-me/open-multi-agent
cd open-multi-agent && npm install
no_proxy=localhost npx tsx examples/08-gemma4-local.tsEl archivo de prueba tiene ~190 líneas en examples/08-gemma4-local.ts. El ajuste no_proxy=localhost solo es necesario si tienes un proxy HTTP configurado.
📖 Leer la fuente completa: r/LocalLLaMA
👀 Ver también

Gemma-4 26B-A4B con Opencode se ejecuta eficientemente en el MacBook Air M5.
Una MacBook Air M5 de 32GB puede ejecutar el modelo Gemma-4-26B-A4B-it-UD-IQ4_XS a 300 tokens/segundo en procesamiento de prompts y 12 tokens/segundo en generación en modo de bajo consumo, utilizando solo 8W de potencia sin calentarse ni hacer ruido.

Construcción y Pruebas de un Servidor MCP en Claude Desktop: Arquitectura y Lecciones Aprendidas
Un desarrollador comparte su experiencia construyendo y probando un servidor MCP dentro de Claude Desktop, detallando su configuración arquitectónica y las lecciones prácticas aprendidas sobre esquemas de herramientas, depuración y limitaciones.

Complemento de Estudio de Diseño para Claude Code Agrega Equipo de Diseño Virtual con 9 Roles y 16 Comandos
Un nuevo complemento de Claude Code llamado Design Studio simula un equipo de diseño completo con 9 roles especializados, 16 comandos de barra y 5 agentes. Detecta automáticamente las pilas tecnológicas e incluye más de 8,000 líneas de conocimiento de diseño en archivos de referencia.

Título: Argus: Una Extensión de VS Code para Depurar Costos y Comportamiento de Sesiones de Claude Code
Un desarrollador construyó Argus, una extensión de VS Code que analiza las transcripciones JSONL de Claude Code y las convierte en una línea de tiempo en tiempo real con desglose de tokens/costo por paso, tasa de aciertos de caché y detección de bucles de reintento, lecturas duplicadas y presión de contexto.