ジェミニ3.1 Proのマルチエージェントシステム：高い設計品質、20%のツール呼び出し失敗率

✍️ OpenClawRadar📅 公開日: February 25, 2026🔗 Source

アーキテクチャとテスト環境

AIプレゼンテーション生成ツール「Bobr」の開発チームは、2階層のエージェントシステム内でGemini 3.1 Proをテストしました。このアーキテクチャは以下の構成です：

オーケストレーターエージェント： 会話の管理、ユーザー意図の理解、構造の計画、ツール呼び出しによる作業の割り当てを行います。
クリエイティブエージェント（今回のテストではGemini 3.1 Pro）： スライドの説明を受け取り、画像を生成し、テンプレート（1920x1080）を作成し、submit_slideツール呼び出しを通じて結果を返します。

クリエイティブエージェントはgenerate_image、search_images、submit_slideなどのツールを備えています。submit_slide呼び出しは重要で、「submit」信号を返し、エージェントループを終了させ、スライドデータを抽出します。両エージェントは、ストリーミング、並列ツール実行、反復制限を伴う同じループで実行されます。

強み：デザインと美的出力

Gemini 3.1 Proが正常に動作する場合、テストした他のモデル（Claude Sonnet 4.6およびGPT-5.2）と比較して優れたデザイン出力を生成します。具体的な強みは以下の通りです：

美的直感： 優れた色彩理論と視覚的階層。
レイアウトの創造性： 非対称な構図、要素の重なり、ダークモード/グラスモーフィズムなどのモダンなUIスタイルの実験。
雰囲気の解釈： 「高級感を出して」「テックスタートアップの雰囲気で」などの曖昧なプロンプトを効果的に処理。
コード品質： モダンで構造的なHTML/CSSを生成。

本番環境での重大な問題

チームは、Gemini 3.1 Proをエージェントパイプラインで使用する際に、2つの主要な信頼性問題に直面しました：

1. 約20%のツール呼び出し失敗率

約20%のリクエストで、Gemini 3.1 Proは必要なsubmit_slideツールを呼び出しません。代わりに、以下のような失敗パターンを示します：

ツールを起動する代わりに、生のHTMLテンプレートをプレーンテキストとして出力し、何を「作成するか」を説明する。
画像を正しく生成するが、提出せずに停止し、反復制限に達する。
画像生成ツールを呼び出すが、最終的なツール呼び出しの代わりに自然言語の要約（「ここに美しいスライドがあります...」）を書く。
行動を確定せずに、テキストでデザインの説明を繰り返し洗練するループに入る。

submit_slideは強制終了経路であるため、失敗するとオーケストレーターにデータが返されず、ユーザー生成が失敗します。

2. 文字化け/破損した出力

モデルは頻繁に、ランダムな文字列、壊れたUnicode、部分的にエンコードされた文字列など、破損したテキストを応答で返します。この破損は時折スライドコンテンツ（変数値、テンプレートマークアップ）に波及し、成功した提出でもプレゼンテーションに意味不明なテキストが表示される可能性があります。

他のモデルとの比較

Claude Sonnet 4.6： 同じクリエイティブエージェント役でのsubmit_slide呼び出しにおいてほぼゼロの失敗率で、「退屈なほど信頼性が高い」と評され、文字化け出力はありません。
GPT-5.2： GeminiとClaudeの中程度のツール信頼性ですが、エンコーディング/意味不明な問題は発生しません。

試みられた緩和策

チームはいくつかのアプローチを試みましたが、大きな改善は見られませんでした：

システムプロンプトに積極的な明示的指示を追加：「必ずsubmit_slideを呼び出してください。テンプレートをテキストとして出力しないでください。」
正確に期待されるツール呼び出しパターンを示す少数ショットの例を注入。
反復制限を減らして、より速い収束を強制。
ツールスキーマを簡素化して削減。

これらの問題にもかかわらず、Gemini 3.1 Proは、正常に機能する際の優れたデザイン能力のために、彼らのシステムで稼働し続けています。

📖 完全なソースを読む： r/LocalLLaMA

👀 See Also

Tools

レイヤーキット：Claude Codeで構築された編集可能なレイヤー搭載AI画像エディター

ある開発者がLayerkitを構築しました。これはブラウザベースのAI画像エディタで、編集可能なレイヤーを持つシーンを生成し、絶え間ない再プロンプトを避けることができます。このツールは多段階のAIパイプラインを使用しており、1つのLLMが構図を計画し、画像モデルがシーンを生成し、別のLLMが実際の画像を分析して読みやすいテキストを配置します。