ジェミニ3.1 Proのマルチエージェントシステム:高い設計品質、20%のツール呼び出し失敗率

アーキテクチャとテスト環境
AIプレゼンテーション生成ツール「Bobr」の開発チームは、2階層のエージェントシステム内でGemini 3.1 Proをテストしました。このアーキテクチャは以下の構成です:
- オーケストレーターエージェント: 会話の管理、ユーザー意図の理解、構造の計画、ツール呼び出しによる作業の割り当てを行います。
- クリエイティブエージェント(今回のテストではGemini 3.1 Pro): スライドの説明を受け取り、画像を生成し、テンプレート(1920x1080)を作成し、
submit_slideツール呼び出しを通じて結果を返します。
クリエイティブエージェントはgenerate_image、search_images、submit_slideなどのツールを備えています。submit_slide呼び出しは重要で、「submit」信号を返し、エージェントループを終了させ、スライドデータを抽出します。両エージェントは、ストリーミング、並列ツール実行、反復制限を伴う同じループで実行されます。
強み:デザインと美的出力
Gemini 3.1 Proが正常に動作する場合、テストした他のモデル(Claude Sonnet 4.6およびGPT-5.2)と比較して優れたデザイン出力を生成します。具体的な強みは以下の通りです:
- 美的直感: 優れた色彩理論と視覚的階層。
- レイアウトの創造性: 非対称な構図、要素の重なり、ダークモード/グラスモーフィズムなどのモダンなUIスタイルの実験。
- 雰囲気の解釈: 「高級感を出して」「テックスタートアップの雰囲気で」などの曖昧なプロンプトを効果的に処理。
- コード品質: モダンで構造的なHTML/CSSを生成。
本番環境での重大な問題
チームは、Gemini 3.1 Proをエージェントパイプラインで使用する際に、2つの主要な信頼性問題に直面しました:
1. 約20%のツール呼び出し失敗率
約20%のリクエストで、Gemini 3.1 Proは必要なsubmit_slideツールを呼び出しません。代わりに、以下のような失敗パターンを示します:
- ツールを起動する代わりに、生のHTMLテンプレートをプレーンテキストとして出力し、何を「作成するか」を説明する。
- 画像を正しく生成するが、提出せずに停止し、反復制限に達する。
- 画像生成ツールを呼び出すが、最終的なツール呼び出しの代わりに自然言語の要約(「ここに美しいスライドがあります...」)を書く。
- 行動を確定せずに、テキストでデザインの説明を繰り返し洗練するループに入る。
submit_slideは強制終了経路であるため、失敗するとオーケストレーターにデータが返されず、ユーザー生成が失敗します。
2. 文字化け/破損した出力
モデルは頻繁に、ランダムな文字列、壊れたUnicode、部分的にエンコードされた文字列など、破損したテキストを応答で返します。この破損は時折スライドコンテンツ(変数値、テンプレートマークアップ)に波及し、成功した提出でもプレゼンテーションに意味不明なテキストが表示される可能性があります。
他のモデルとの比較
- Claude Sonnet 4.6: 同じクリエイティブエージェント役での
submit_slide呼び出しにおいてほぼゼロの失敗率で、「退屈なほど信頼性が高い」と評され、文字化け出力はありません。 - GPT-5.2: GeminiとClaudeの中程度のツール信頼性ですが、エンコーディング/意味不明な問題は発生しません。
試みられた緩和策
チームはいくつかのアプローチを試みましたが、大きな改善は見られませんでした:
- システムプロンプトに積極的な明示的指示を追加:「必ずsubmit_slideを呼び出してください。テンプレートをテキストとして出力しないでください。」
- 正確に期待されるツール呼び出しパターンを示す少数ショットの例を注入。
- 反復制限を減らして、より速い収束を強制。
- ツールスキーマを簡素化して削減。
これらの問題にもかかわらず、Gemini 3.1 Proは、正常に機能する際の優れたデザイン能力のために、彼らのシステムで稼働し続けています。
📖 完全なソースを読む: r/LocalLLaMA
👀 See Also

レイヤーキット:Claude Codeで構築された編集可能なレイヤー搭載AI画像エディター
ある開発者がLayerkitを構築しました。これはブラウザベースのAI画像エディタで、編集可能なレイヤーを持つシーンを生成し、絶え間ない再プロンプトを避けることができます。このツールは多段階のAIパイプラインを使用しており、1つのLLMが構図を計画し、画像モデルがシーンを生成し、別のLLMが実際の画像を分析して読みやすいテキストを配置します。

AIを小さなボットで探求:ナノボットチューターを通じてAIエージェントを理解する
OpenClawコミュニティのメンバーが、AIエージェントの機能を解明することを目的としたミニチュアフレームワーク『ナノボットチューター』に関する洞察を共有しています。このコンパクトな学習環境に飛び込むことで、知的エージェントの仕組みがどのように明らかになるのかを発見してください。

Codex Chrome拡張機能、タブ間のバックグラウンドブラウザ自動化を追加
Codexの新しいChrome拡張機能(macOS/Windows対応)により、ブラウザを占有せずにバックグラウンドタブで並行ブラウザタスクを実行可能に。デバッグフロー、ダッシュボード確認、リサーチ、CRM更新などに対応。

OMAR: 数百のAIコーディングエージェントを階層的に管理するためのオープンソースTUI
OMARはターミナルベースのダッシュボードで、階層的な組織内でコーディングエージェント(Claude Code、Codex、Cursor、Opencode)の群れを管理できます。tmux上に構築されています。エージェントがエージェントを管理する階層、異種バックエンド、Slack統合が特徴です。