Gemini 3.1 Pro multi-agents : taux d'échec 20%

Architecture et contexte de test

L'équipe derrière Bobr, un générateur de présentations IA, a testé Gemini 3.1 Pro dans un système d'agents à deux niveaux. L'architecture se compose de :

Agent Orchestrateur : Gère la conversation, comprend l'intention de l'utilisateur, planifie la structure et distribue le travail via des appels d'outils.
Agent Créatif (Gemini 3.1 Pro dans ce test) : Reçoit les descriptions de diapositives, génère des images, construit des modèles (1920x1080) et renvoie les résultats via un appel d'outil submit_slide.

L'agent créatif dispose d'outils incluant generate_image, search_images et submit_slide. L'appel submit_slide est critique — il renvoie un signal 'submit', termine la boucle de l'agent et extrait les données de la diapositive. Les deux agents fonctionnent via la même boucle avec streaming, exécution parallèle d'outils et limites d'itération.

Points forts : Conception et rendu esthétique

Lorsque Gemini 3.1 Pro fonctionne correctement, il produit un rendu de conception supérieur par rapport aux autres modèles testés (Claude Sonnet 4.6 et GPT-5.2). Ses points forts spécifiques incluent :

Intuition esthétique : Meilleure théorie des couleurs et hiérarchie visuelle.
Créativité de mise en page : Expérimente avec des compositions asymétriques, des éléments superposés et des styles d'interface modernes comme le dark-mode/glassmorphism.
Interprétation de l'ambiance : Gère efficacement des instructions vagues comme "rends-le premium" ou "vibes startup tech".
Qualité du code : Génère du HTML/CSS moderne et structurel.

Problèmes critiques en production

L'équipe a rencontré deux problèmes majeurs de fiabilité avec Gemini 3.1 Pro dans leur pipeline agentique :

1. Taux d'échec d'appel d'outils d'environ 20 %

Dans environ 20 % des requêtes, Gemini 3.1 Pro échoue à appeler l'outil requis submit_slide. Au lieu de cela, il présente plusieurs modèles d'échec :

Produit un modèle HTML brut sous forme de texte brut, décrivant ce qu'il "créerait" plutôt que de déclencher l'outil.
Génère correctement des images mais s'arrête sans soumettre, atteignant les limites d'itération.
Appelle les outils de génération d'images mais écrit des résumés en langage naturel ("Voici votre belle diapositive...") au lieu de l'appel d'outil final.
Entre dans des boucles affinant les descriptions de conception en texte sans passer à l'action.

Puisque submit_slide est le chemin de sortie obligatoire, les échecs entraînent l'absence de données renvoyées à l'orchestrateur et des générations utilisateur ratées.

2. Sortie incohérente/corrompue

Le modèle renvoie fréquemment du texte corrompu dans les réponses — séquences de caractères aléatoires, Unicode cassé, chaînes à moitié encodées. Cette corruption s'infiltte parfois dans le contenu des diapositives (valeurs de variables, balisage de modèle), ce qui signifie que même les soumissions réussies peuvent afficher du texte incohérent dans les présentations.

Comparaison avec d'autres modèles

Claude Sonnet 4.6 : Taux d'échec quasi nul sur les appels submit_slide dans le même rôle d'agent créatif, décrit comme "ennuyeusement fiable" sans sortie incohérente.
GPT-5.2 : Fiabilité modérée des outils entre Gemini et Claude, mais ne souffre pas des problèmes d'encodage/incohérence.

Atténuations tentées

L'équipe a essayé plusieurs approches sans amélioration significative :

Ajout d'instructions explicites agressives dans les prompts système : "Vous DEVEZ appeler submit_slide. Ne produisez pas le modèle sous forme de texte."
Injection d'exemples few-shot montrant les modèles exacts d'appel d'outils attendus.
Réduction des limites d'itération pour forcer une convergence plus rapide.
Simplification et épurement des schémas d'outils.

Malgré ces problèmes, Gemini 3.1 Pro reste en ligne dans leur système en raison de ses capacités de conception supérieures lorsqu'il fonctionne correctement.

📖 Lire la source complète : r/LocalLLaMA