Gemma 4 E2B como Coordinador Multi-Agente en TypeScript

Capacidades del Coordinador Probadas

La prueba evaluó si Gemma 4 E2B podía manejar el rol de coordinador en un sistema multiagente, específicamente: tomar un objetivo en lenguaje natural, dividirlo en un gráfico de tareas, asignar agentes, llamar herramientas y unir resultados.

Implementación Técnica

El framework utilizado fue open-multi-agent (TypeScript, código abierto) con Ollama a través de una API compatible con OpenAI. El coordinador recibe un objetivo y una lista de agentes, luego genera un array de tareas JSON con título, descripción, asignado y dependencias. Los agentes ejecutan con capacidades de llamada de herramientas incluyendo operaciones bash y lectura/escritura de archivos.

Detalles del Modelo

Gemma 4 E2B ("Effective 2B") tiene 2.300 millones de parámetros efectivos y 5.100 millones de parámetros totales. Los ~2.800 millones de parámetros adicionales son para la capa de embeddings que soporta más de 140 idiomas y capacidades multimodales.

Escenario de Prueba

El objetivo proporcionado fue: "Verificar la versión de Node.js de esta máquina, la versión de npm y la información del sistema operativo, luego escribir un breve informe en Markdown en /tmp/report.md"

E2B correctamente:

Lo dividió en 2 tareas con una dependencia (investigador → resumidor)
Asignó cada una al agente correcto
Usó bash para ejecutar comandos del sistema
Usó file_write para guardar el informe
Sintetizó la salida final

Tanto runTasks() (pipeline explícito) como runTeam() (el modelo planifica todo autónomamente) funcionaron.

Rendimiento y Observaciones

En un M1 con 16GB de RAM:

runTeam() completo toma ~2 minutos
6–9 llamadas secuenciales de LLM internamente (planificación del coordinador → uso multi-turn de herramientas del investigador → resumidor → síntesis del coordinador)
~10–15 segundos por llamada en M1
E2B usa ~3–4 GB de RAM sin presión de memoria

Lo que funcionó bien:

Salida JSON: El coordinador produjo el esquema correcto para la descomposición de tareas. El framework tiene análisis tolerante que primero intenta bloques delimitados, luego recurre a extracción de array simple.
Llamada de herramientas: Funciona a través del endpoint compatible con OpenAI, decidiendo correctamente cuándo llamar, analizando argumentos y manejando resultados multi-turn.

Limitaciones observadas:

Calidad de salida: La prosa en la síntesis final es notablemente más débil que en modelos más grandes. Funcional pero no pulida.

Pasos de Reproducción

ollama pull gemma4:e2b
git clone https://github.com/JackChen-me/open-multi-agent
cd open-multi-agent && npm install
no_proxy=localhost npx tsx examples/08-gemma4-local.ts

El archivo de prueba tiene ~190 líneas en examples/08-gemma4-local.ts. El ajuste no_proxy=localhost solo es necesario si tienes un proxy HTTP configurado.

📖 Leer la fuente completa: r/LocalLLaMA