Gemini 3.1 Pro dans les systèmes multi-agents : Haute qualité de conception, taux d'échec des appels d'outils de 20 %

✍️ OpenClawRadar📅 Publié: February 25, 2026🔗 Source
Gemini 3.1 Pro dans les systèmes multi-agents : Haute qualité de conception, taux d'échec des appels d'outils de 20 %
Ad

Architecture et contexte de test

L'équipe derrière Bobr, un générateur de présentations IA, a testé Gemini 3.1 Pro dans un système d'agents à deux niveaux. L'architecture se compose de :

  • Agent Orchestrateur : Gère la conversation, comprend l'intention de l'utilisateur, planifie la structure et distribue le travail via des appels d'outils.
  • Agent Créatif (Gemini 3.1 Pro dans ce test) : Reçoit les descriptions de diapositives, génère des images, construit des modèles (1920x1080) et renvoie les résultats via un appel d'outil submit_slide.

L'agent créatif dispose d'outils incluant generate_image, search_images et submit_slide. L'appel submit_slide est critique — il renvoie un signal 'submit', termine la boucle de l'agent et extrait les données de la diapositive. Les deux agents fonctionnent via la même boucle avec streaming, exécution parallèle d'outils et limites d'itération.

Points forts : Conception et rendu esthétique

Lorsque Gemini 3.1 Pro fonctionne correctement, il produit un rendu de conception supérieur par rapport aux autres modèles testés (Claude Sonnet 4.6 et GPT-5.2). Ses points forts spécifiques incluent :

  • Intuition esthétique : Meilleure théorie des couleurs et hiérarchie visuelle.
  • Créativité de mise en page : Expérimente avec des compositions asymétriques, des éléments superposés et des styles d'interface modernes comme le dark-mode/glassmorphism.
  • Interprétation de l'ambiance : Gère efficacement des instructions vagues comme "rends-le premium" ou "vibes startup tech".
  • Qualité du code : Génère du HTML/CSS moderne et structurel.
Ad

Problèmes critiques en production

L'équipe a rencontré deux problèmes majeurs de fiabilité avec Gemini 3.1 Pro dans leur pipeline agentique :

1. Taux d'échec d'appel d'outils d'environ 20 %

Dans environ 20 % des requêtes, Gemini 3.1 Pro échoue à appeler l'outil requis submit_slide. Au lieu de cela, il présente plusieurs modèles d'échec :

  • Produit un modèle HTML brut sous forme de texte brut, décrivant ce qu'il "créerait" plutôt que de déclencher l'outil.
  • Génère correctement des images mais s'arrête sans soumettre, atteignant les limites d'itération.
  • Appelle les outils de génération d'images mais écrit des résumés en langage naturel ("Voici votre belle diapositive...") au lieu de l'appel d'outil final.
  • Entre dans des boucles affinant les descriptions de conception en texte sans passer à l'action.

Puisque submit_slide est le chemin de sortie obligatoire, les échecs entraînent l'absence de données renvoyées à l'orchestrateur et des générations utilisateur ratées.

2. Sortie incohérente/corrompue

Le modèle renvoie fréquemment du texte corrompu dans les réponses — séquences de caractères aléatoires, Unicode cassé, chaînes à moitié encodées. Cette corruption s'infiltte parfois dans le contenu des diapositives (valeurs de variables, balisage de modèle), ce qui signifie que même les soumissions réussies peuvent afficher du texte incohérent dans les présentations.

Comparaison avec d'autres modèles

  • Claude Sonnet 4.6 : Taux d'échec quasi nul sur les appels submit_slide dans le même rôle d'agent créatif, décrit comme "ennuyeusement fiable" sans sortie incohérente.
  • GPT-5.2 : Fiabilité modérée des outils entre Gemini et Claude, mais ne souffre pas des problèmes d'encodage/incohérence.

Atténuations tentées

L'équipe a essayé plusieurs approches sans amélioration significative :

  • Ajout d'instructions explicites agressives dans les prompts système : "Vous DEVEZ appeler submit_slide. Ne produisez pas le modèle sous forme de texte."
  • Injection d'exemples few-shot montrant les modèles exacts d'appel d'outils attendus.
  • Réduction des limites d'itération pour forcer une convergence plus rapide.
  • Simplification et épurement des schémas d'outils.

Malgré ces problèmes, Gemini 3.1 Pro reste en ligne dans leur système en raison de ses capacités de conception supérieures lorsqu'il fonctionne correctement.

📖 Lire la source complète : r/LocalLLaMA

Ad

👀 See Also

Le benchmark montre que le moteur de contexte réduit les coûts des agents d'IA de codage par 3 sur SWE-bench.
Tools

Le benchmark montre que le moteur de contexte réduit les coûts des agents d'IA de codage par 3 sur SWE-bench.

Un benchmark de 4 agents de codage utilisant Claude Opus 4.5 sur SWE-bench Verified montre qu'un moteur de contexte a atteint un taux de réussite de 73 % à 0,67 $/tâche, tandis que les autres agents coûtent jusqu'à 1,98 $/tâche pour des performances similaires ou inférieures.

OpenClawRadar
Serveur MCP Permet à Claude de Créer et Exécuter des Outils Personnalisés à l'Exécution
Tools

Serveur MCP Permet à Claude de Créer et Exécuter des Outils Personnalisés à l'Exécution

Un développeur a créé un serveur MCP permettant à Claude de créer, mettre à jour et exécuter de nouveaux outils à l'exécution sans nécessiter de redéploiement. Le système utilise cinq outils principaux et exécute du code JavaScript/TypeScript personnalisé dans un bac à sable Deno avec un démarrage à froid d'environ 50 ms.

OpenClawRadar
Configuration alternative de codage IA après l'augmentation des prix de Claude
Tools

Configuration alternative de codage IA après l'augmentation des prix de Claude

Un développeur partage sa configuration actuelle de codage IA en utilisant GPT 5.4 comme modèle principal, Codex comme solution de secours incluse dans l'abonnement ChatGPT, et Minimax 2.7 comme sauvegarde avec un tarif de plan de codage.

OpenClawRadar
Claude Code Routines : Planifiez des tâches d'agent comme Cron avec raisonnement
Tools

Claude Code Routines : Planifiez des tâches d'agent comme Cron avec raisonnement

Les routines Claude Code vous permettent d'exécuter des tâches d'agent selon un calendrier sans garder une session ouverte. Un utilisateur de Reddit partage des exemples concrets : révision des commits chaque nuit, vérification hebdomadaire des dépendances, analyse quotidienne des journaux d'erreurs — avec raisonnement IA au lieu d'un simple script en sortie brute.

OpenClawRadar