Gemma 4 E2Bテスト：マルチエージェントコーディネーターとしての実力

コーディネーター能力のテスト

このテストでは、Gemma 4 E2Bがマルチエージェントシステムにおけるコーディネーター役を処理できるかどうかを評価しました。具体的には、自然言語で与えられた目標を受け取り、タスクグラフに分解し、エージェントを割り当て、ツールを呼び出し、結果を統合する能力を検証しました。

技術的実装

使用されたフレームワークは、OllamaをOpenAI互換API経由で使用するopen-multi-agent（TypeScript、オープンソース）でした。コーディネーターは目標とエージェントリストを受け取り、タイトル、説明、担当者、依存関係を含むJSONタスク配列を出力します。エージェントは、bashやファイル読み書き操作を含むツール呼び出し機能を備えて実行されます。

モデル詳細

Gemma 4 E2B（「Effective 2B」）は、2.3Bの有効パラメータと5.1Bの総パラメータを持っています。追加の約2.8Bパラメータは、140以上の言語とマルチモーダル機能をサポートする埋め込み層に使用されています。

テストシナリオ

与えられた目標は次の通りです：「このマシンのNode.jsバージョン、npmバージョン、OS情報を確認し、短いMarkdownサマリーレポートを/tmp/report.mdに書き込む」

E2Bは正しく以下を実行しました：

依存関係（研究者 → 要約者）を持つ2つのタスクに分解
各タスクを適切なエージェントに割り当て
bashを使用してシステムコマンドを実行
file_writeを使用してレポートを保存
最終出力を統合

runTasks()（明示的なパイプライン）とrunTeam()（モデルがすべて自律的に計画）の両方が機能しました。

パフォーマンスと観察結果

16GB RAMのM1マシンでの結果：

完全なrunTeam()は約2分かかる
内部で6〜9回の連続したLLM呼び出し（コーディネーター計画 → 研究者のマルチターンツール使用 → 要約者 → コーディネーター統合）
M1では呼び出しごとに約10〜15秒
E2Bはメモリ圧力なしで約3〜4 GB RAMを使用

うまく機能した点：

JSON出力：コーディネーターはタスク分解のための正しいスキーマを生成しました。フレームワークには、最初に囲みブロックを試し、次に生の配列抽出にフォールバックする寛容なパーシングがあります。
ツール呼び出し：OpenAI互換エンドポイントを介して機能し、呼び出すタイミングの決定、引数の解析、マルチターン結果の処理を正しく行います。

指摘された制限：

出力品質：最終統合における文章の質は、より大きなモデルよりも明らかに劣ります。機能的ではありますが、洗練されていません。

再現手順

ollama pull gemma4:e2b
git clone https://github.com/JackChen-me/open-multi-agent
cd open-multi-agent && npm install
no_proxy=localhost npx tsx examples/08-gemma4-local.ts

テストファイルはexamples/08-gemma4-local.tsにあり、約190行です。no_proxy=localhost設定は、HTTPプロキシが設定されている場合にのみ必要です。

📖 Read the full source: r/LocalLLaMA