Gemini 3.1 Pro: 20% Tool-Crash-Rate in Multi-Agent-Systemen

Architektur und Testkontext

Das Team hinter Bobr, einem KI-Präsentationsgenerator, testete Gemini 3.1 Pro in einem zweistufigen Agentensystem. Die Architektur besteht aus:

Orchestrator-Agent: Handhabt die Konversation, versteht die Nutzerabsicht, plant die Struktur und verteilt die Arbeit über Werkzeugaufrufe.
Kreativ-Agent (in diesem Test Gemini 3.1 Pro): Erhält Folienbeschreibungen, generiert Bilder, erstellt Vorlagen (1920x1080) und gibt Ergebnisse über einen submit_slide-Werkzeugaufruf zurück.

Der kreative Agent verfügt über Werkzeuge wie generate_image, search_images und submit_slide. Der submit_slide-Aufruf ist entscheidend – er gibt ein 'Submit'-Signal zurück, beendet die Agentenschleife und extrahiert die Folien-Daten. Beide Agenten laufen durch dieselbe Schleife mit Streaming, paralleler Werkzeugausführung und Iterationslimits.

Stärken: Design und ästhetische Ergebnisse

Wenn Gemini 3.1 Pro korrekt funktioniert, erzeugt es im Vergleich zu anderen getesteten Modellen (Claude Sonnet 4.6 und GPT-5.2) überlegene Design-Ergebnisse. Spezifische Stärken umfassen:

Ästhetische Intuition: Bessere Farbtheorie und visuelle Hierarchie.
Layout-Kreativität: Experimentiert mit asymmetrischen Kompositionen, überlappenden Elementen und modernen UI-Stilen wie Dark-Mode/Glassmorphism.
Stimmungserfassung: Verarbeitet effektiv vage Anweisungen wie "mach es hochwertig" oder "Tech-Startup-Vibes".
Code-Qualität: Erzeugt modernen, strukturellen HTML/CSS-Code.

Kritische Probleme in der Produktion

Das Team stieß auf zwei große Zuverlässigkeitsprobleme mit Gemini 3.1 Pro in ihrer agentenbasierten Pipeline:

1. ~20% Werkzeugaufruf-Ausfallrate

In etwa 20 % der Anfällen ruft Gemini 3.1 Pro das erforderliche submit_slide-Werkzeug nicht auf. Stattdessen zeigt es mehrere Fehlermuster:

Gibt rohe HTML-Vorlagen als Klartext aus, beschreibt, was es "erstellen würde", anstatt das Werkzeug auszulösen.
Generiert Bilder korrekt, stoppt aber ohne Absenden und erreicht Iterationslimits.
Ruft Bildgenerierungswerkzeuge auf, schreibt aber natürliche Sprachzusammenfassungen ("Hier ist Ihre schöne Folie...") anstelle des finalen Werkzeugaufrufs.
Gerät in Schleifen, die Designbeschreibungen im Text verfeinern, ohne zur Aktion überzugehen.

Da submit_slide der harte Ausstiegspfad ist, führen Fehler dazu, dass keine Daten an den Orchestrator zurückgegeben werden und Nutzergenerierungen fehlschlagen.

2. Verstümmelte/korrupte Ausgaben

Das Modell gibt häufig korrumpierten Text in Antworten zurück – zufällige Zeichenfolgen, kaputte Unicode-Zeichen, halb kodierte Strings. Diese Korruption dringt manchmal in den Folieninhalt ein (Variablenwerte, Vorlagen-Markup), was bedeutet, dass selbst erfolgreiche Übermittlungen Kauderwelsch-Text in Präsentationen anzeigen könnten.

Vergleich mit anderen Modellen

Claude Sonnet 4.6: Nahezu null Ausfallrate bei submit_slide-Aufrufen in derselben kreativen Agentenrolle, beschrieben als "langweilig zuverlässig" ohne verstümmelte Ausgaben.
GPT-5.2: Mittlere Werkzeugzuverlässigkeit zwischen Gemini und Claude, leidet aber nicht unter Kodierungs-/Kauderwelsch-Problemen.

Versuche zur Problembehebung

Das Team versuchte mehrere Ansätze ohne signifikante Verbesserung:

Hinzufügen aggressiver expliziter Anweisungen in System-Prompts: "Sie MÜSSEN submit_slide aufrufen. Geben Sie die Vorlage nicht als Text aus."
Einfügen von Few-Shot-Beispielen, die exakt erwartete Werkzeugaufrufmuster zeigen.
Reduzieren von Iterationslimits, um schnellere Konvergenz zu erzwingen.
Vereinfachen und Reduzieren von Werkzeugschemata.

Trotz dieser Probleme bleibt Gemini 3.1 Pro aufgrund seiner überlegenen Designfähigkeiten, wenn es korrekt funktioniert, in ihrem System aktiv.

📖 Quelle lesen: r/LocalLLaMA

Gemini 3.1 Pro in Multi-Agenten-Systemen: Hohe Designqualität, 20% Fehlerrate bei Tool-Aufrufen

Architektur und Testkontext

Stärken: Design und ästhetische Ergebnisse

Kritische Probleme in der Produktion

Vergleich mit anderen Modellen

Versuche zur Problembehebung

👀 Siehe auch

Claudes 171 interne Emotionsvektoren beeinflussen die Ausgabe: Toolkit basierend auf Anthropic-Forschung

Benutzererfahrung: Wechsel von OpenClaw zu Hermes Agent auf lokalem LLM

Fino: Open-Source MCP-Server für persönliche Finanzanalyse mit Claude

ProofShot: CLI für KI-Agenten zur Überprüfung von UI-Code mit Browser-Aufzeichnung