Test: Gemma 4 E2B als Multi-Agenten-Koordinator in TypeScript

Koordinator-Fähigkeiten getestet

Der Test bewertete, ob Gemma 4 E2B die Koordinatorrolle in einem Multi-Agenten-System übernehmen kann, insbesondere: ein natürliches Sprachziel entgegennehmen, es in einen Aufgabenplan zerlegen, Agenten zuweisen, Werkzeuge aufrufen und Ergebnisse zusammenfügen.

Technische Umsetzung

Das verwendete Framework war open-multi-agent (TypeScript, Open-Source) mit Ollama über eine OpenAI-kompatible API. Der Koordinator erhält ein Ziel und eine Agentenliste und gibt dann ein JSON-Aufgabenarray mit Titel, Beschreibung, Zuständigem und Abhängigkeiten aus. Agenten führen mit Werkzeugaufruffähigkeiten aus, einschließlich bash- und Datei-Lese-/Schreiboperationen.

Modell-Details

Gemma 4 E2B („Effective 2B“) hat 2,3 Milliarden effektive Parameter und 5,1 Milliarden Gesamtparameter. Die zusätzlichen ~2,8 Milliarden Parameter sind für die Embedding-Schicht, die 140+ Sprachen und multimodale Fähigkeiten unterstützt.

Testszenario

Das vorgegebene Ziel war: „Überprüfe die Node.js-Version, die npm-Version und die OS-Informationen dieses Rechners, dann schreibe einen kurzen Markdown-Zusammenfassungsbericht nach /tmp/report.md“

E2B hat korrekt:

Es in 2 Aufgaben mit einer Abhängigkeit zerlegt (Forscher → Zusammenfasser)
Jede dem richtigen Agenten zugewiesen
Bash verwendet, um Systembefehle auszuführen
file_write verwendet, um den Bericht zu speichern
Die endgültige Ausgabe synthetisiert

Sowohl runTasks() (explizite Pipeline) als auch runTeam() (Modell plant alles autonom) funktionierten.

Leistung und Beobachtungen

Auf einem M1 mit 16 GB RAM:

Vollständiges runTeam() dauert ~2 Minuten
6–9 sequenzielle LLM-Aufrufe im Hintergrund (Koordinatorplanung → Forscher-Mehrfach-Werkzeugnutzung → Zusammenfasser → Koordinatorsynthese)
~10–15 Sekunden pro Aufruf auf M1
E2B verwendet ~3–4 GB RAM ohne Speicherdruck

Was gut funktionierte:

JSON-Ausgabe: Der Koordinator erzeugte das korrekte Schema für die Aufgabenzerlegung. Das Framework hat eine tolerante Analyse, die zuerst umrahmte Blöcke versucht und dann auf die Extraktion nackter Arrays zurückfällt.
Werkzeugaufruf: Funktioniert über den OpenAI-kompatiblen Endpunkt, entscheidet korrekt, wann aufgerufen werden soll, analysiert Argumente und verarbeitet Mehrfach-Ergebnisse.

Festgestellte Einschränkungen:

Ausgabequalität: Die Prosa in der endgültigen Synthese ist deutlich schwächer als bei größeren Modellen. Funktional, aber nicht ausgefeilt.

Reproduktionsschritte

ollama pull gemma4:e2b
git clone https://github.com/JackChen-me/open-multi-agent
cd open-multi-agent && npm install
no_proxy=localhost npx tsx examples/08-gemma4-local.ts

Die Testdatei ist ~190 Zeilen unter examples/08-gemma4-local.ts. Die Einstellung no_proxy=localhost ist nur erforderlich, wenn ein HTTP-Proxy konfiguriert ist.

📖 Read the full source: r/LocalLLaMA