Gemma 4 E2B Testé en tant que Coordinateur Multi-Agent dans un Framework TypeScript

Capacités du coordinateur testées
Le test a évalué si Gemma 4 E2B pouvait gérer le rôle de coordinateur dans un système multi-agent, notamment : prendre un objectif en langage naturel, le décomposer en un graphe de tâches, assigner des agents, appeler des outils et assembler les résultats.
Implémentation technique
Le framework utilisé était open-multi-agent (TypeScript, open-source) avec Ollama via une API compatible OpenAI. Le coordinateur reçoit un objectif et une liste d'agents, puis produit un tableau JSON de tâches avec titre, description, assigné et dépendances. Les agents exécutent avec des capacités d'appel d'outils incluant bash et des opérations de lecture/écriture de fichiers.
Détails du modèle
Gemma 4 E2B (« Effective 2B ») a 2,3 milliards de paramètres effectifs et 5,1 milliards de paramètres totaux. Les ~2,8 milliards de paramètres supplémentaires sont pour la couche d'embedding supportant plus de 140 langues et des capacités multimodales.
Scénario de test
L'objectif fourni était : « Vérifier la version de Node.js, la version de npm et les informations du système d'exploitation de cette machine, puis écrire un court rapport Markdown dans /tmp/report.md »
E2B a correctement :
- Décomposé en 2 tâches avec une dépendance (chercheur → synthétiseur)
- Assigné chacune au bon agent
- Utilisé bash pour exécuter des commandes système
- Utilisé file_write pour sauvegarder le rapport
- Synthétisé la sortie finale
Les deux méthodes runTasks() (pipeline explicite) et runTeam() (le modèle planifie tout de manière autonome) ont fonctionné.
Performances et observations
Sur un M1 avec 16 Go de RAM :
- Un
runTeam()complet prend ~2 minutes - 6–9 appels LLM séquentiels en arrière-plan (planification du coordinateur → utilisation multi-tours des outils par le chercheur → synthétiseur → synthèse du coordinateur)
- ~10–15 secondes par appel sur M1
- E2B utilise ~3–4 Go de RAM sans pression mémoire
Ce qui a bien fonctionné :
- Sortie JSON : Le coordinateur a produit le schéma correct pour la décomposition des tâches. Le framework a un parsing tolérant qui essaie d'abord les blocs délimités, puis revient à l'extraction de tableau brut.
- Appel d'outils : Fonctionne via le point de terminaison compatible OpenAI, en décidant correctement quand appeler, en analysant les arguments et en gérant les résultats multi-tours.
Limitations notées :
- Qualité de la sortie : La prose dans la synthèse finale est nettement moins bonne que celle des modèles plus grands. Fonctionnelle mais pas polie.
Étapes de reproduction
ollama pull gemma4:e2b
git clone https://github.com/JackChen-me/open-multi-agent
cd open-multi-agent && npm install
no_proxy=localhost npx tsx examples/08-gemma4-local.tsLe fichier de test fait ~190 lignes à examples/08-gemma4-local.ts. Le paramètre no_proxy=localhost est uniquement nécessaire si vous avez un proxy HTTP configuré.
📖 Read the full source: r/LocalLLaMA
👀 See Also

MOOSE-Star : Un modèle 7B et un jeu de données de 108 000 articles pour la découverte d'hypothèses scientifiques – ICML 2026
MiroMind publie MOOSE-Star sur Hugging Face : un modèle de 7B (fine-tune de DeepSeek-R1-Distill-Qwen-7B) pour la découverte d'hypothèses scientifiques, accompagné du jeu de données TOMATO-Star de 108 000 articles. Les benchmarks montrent que MS-7B atteint 54,34 % de précision de récupération d'inspiration, surpassant GPT-5.4 et s'approchant de Gemini-3 Pro.

cstat : Une barre d'état native en Rust pour Claude Code avec des performances de 2ms
cstat est un binaire natif Rust qui remplace la ligne d'état de 62 ms de claude-hud par une implémentation de 2 ms en éliminant 24 lancements de sous-processus par invocation. Il affiche les informations du modèle, les limites de débit, l'état git, l'utilisation de la fenêtre contextuelle, les outils actifs, les sous-agents et la progression des tâches.

Engram v1.0.0 : Mémoire persistante pour les LLM locaux via un graphe de connaissances
Engram est un binaire unique qui fournit une mémoire persistante pour les LLM locaux grâce à un système de graphe de connaissances. Il inclut un serveur MCP pour l'intégration avec Claude Code, Cursor et Windsurf, stocke toutes les données dans un seul fichier .brain et fonctionne entièrement hors ligne.
Gigacatalyst : Intégrez un constructeur d'IA dans votre SaaS pour permettre aux utilisateurs de créer des workflows personnalisés
Gigacatalyst vous permet d'intégrer un constructeur d'applications basé sur l'IA dans votre SaaS. Les utilisateurs non techniques décrivent des workflows en langage naturel, et le système génère des applications gouvernées utilisant vos API, votre modèle de données et votre système de design — avec authentification, isolation des locataires et contrôle de version intégrés.