Gemma 4 E2B como Coordenador Multi-Agente em TypeScript

Capacidades do Coordenador Testadas

O teste avaliou se o Gemma 4 E2B poderia lidar com o papel de coordenador em um sistema multiagente, especificamente: receber um objetivo em linguagem natural, dividi-lo em um gráfico de tarefas, atribuir agentes, chamar ferramentas e juntar os resultados.

Implementação Técnica

O framework usado foi open-multi-agent (TypeScript, código aberto) com Ollama via uma API compatível com OpenAI. O coordenador recebe um objetivo e uma lista de agentes, então gera um array de tarefas JSON com título, descrição, responsável e dependências. Os agentes executam com capacidades de chamada de ferramentas incluindo bash e operações de leitura/escrita de arquivos.

Detalhes do Modelo

O Gemma 4 E2B ("Effective 2B") tem 2,3 bilhões de parâmetros efetivos e 5,1 bilhões de parâmetros totais. Os ~2,8 bilhões de parâmetros extras são para a camada de embedding que suporta mais de 140 idiomas e capacidades multimodais.

Cenário do Teste

O objetivo fornecido foi: "Verifique a versão do Node.js desta máquina, a versão do npm e as informações do SO, então escreva um breve relatório em Markdown em /tmp/report.md"

O E2B fez corretamente:

Dividiu em 2 tarefas com uma dependência (pesquisador → resumidor)
Atribuiu cada uma ao agente correto
Usou bash para executar comandos do sistema
Usou file_write para salvar o relatório
Sintetizou a saída final

Tanto runTasks() (pipeline explícito) quanto runTeam() (o modelo planeja tudo autonomamente) funcionaram.

Desempenho e Observações

Em um M1 com 16GB de RAM:

O runTeam() completo leva ~2 minutos
6–9 chamadas sequenciais de LLM nos bastidores (planejamento do coordenador → uso multi-turn de ferramentas do pesquisador → resumidor → síntese do coordenador)
~10–15 segundos por chamada no M1
O E2B usa ~3–4 GB de RAM sem pressão de memória

O que funcionou bem:

Saída JSON: O coordenador produziu o esquema correto para decomposição de tarefas. O framework tem análise tolerante que tenta blocos delimitados primeiro, depois recorre à extração de array simples.
Chamada de ferramentas: Funciona através do endpoint compatível com OpenAI, decidindo corretamente quando chamar, analisando argumentos e lidando com resultados multi-turn.

Limitações observadas:

Qualidade da saída: A prosa na síntese final é notavelmente mais fraca do que em modelos maiores. Funcional, mas não polida.

Passos para Reprodução

ollama pull gemma4:e2b
git clone https://github.com/JackChen-me/open-multi-agent
cd open-multi-agent && npm install
no_proxy=localhost npx tsx examples/08-gemma4-local.ts

O arquivo de teste tem ~190 linhas em examples/08-gemma4-local.ts. A configuração no_proxy=localhost só é necessária se você tiver um proxy HTTP configurado.

📖 Leia a fonte completa: r/LocalLLaMA