Gemini 3.1 Pro in Multi-Agenten-Systemen: Hohe Designqualität, 20% Fehlerrate bei Tool-Aufrufen

✍️ OpenClawRadar📅 Veröffentlicht: 25. Februar 2026🔗 Source
Gemini 3.1 Pro in Multi-Agenten-Systemen: Hohe Designqualität, 20% Fehlerrate bei Tool-Aufrufen
Ad

Architektur und Testkontext

Das Team hinter Bobr, einem KI-Präsentationsgenerator, testete Gemini 3.1 Pro in einem zweistufigen Agentensystem. Die Architektur besteht aus:

  • Orchestrator-Agent: Handhabt die Konversation, versteht die Nutzerabsicht, plant die Struktur und verteilt die Arbeit über Werkzeugaufrufe.
  • Kreativ-Agent (in diesem Test Gemini 3.1 Pro): Erhält Folienbeschreibungen, generiert Bilder, erstellt Vorlagen (1920x1080) und gibt Ergebnisse über einen submit_slide-Werkzeugaufruf zurück.

Der kreative Agent verfügt über Werkzeuge wie generate_image, search_images und submit_slide. Der submit_slide-Aufruf ist entscheidend – er gibt ein 'Submit'-Signal zurück, beendet die Agentenschleife und extrahiert die Folien-Daten. Beide Agenten laufen durch dieselbe Schleife mit Streaming, paralleler Werkzeugausführung und Iterationslimits.

Stärken: Design und ästhetische Ergebnisse

Wenn Gemini 3.1 Pro korrekt funktioniert, erzeugt es im Vergleich zu anderen getesteten Modellen (Claude Sonnet 4.6 und GPT-5.2) überlegene Design-Ergebnisse. Spezifische Stärken umfassen:

  • Ästhetische Intuition: Bessere Farbtheorie und visuelle Hierarchie.
  • Layout-Kreativität: Experimentiert mit asymmetrischen Kompositionen, überlappenden Elementen und modernen UI-Stilen wie Dark-Mode/Glassmorphism.
  • Stimmungserfassung: Verarbeitet effektiv vage Anweisungen wie "mach es hochwertig" oder "Tech-Startup-Vibes".
  • Code-Qualität: Erzeugt modernen, strukturellen HTML/CSS-Code.
Ad

Kritische Probleme in der Produktion

Das Team stieß auf zwei große Zuverlässigkeitsprobleme mit Gemini 3.1 Pro in ihrer agentenbasierten Pipeline:

1. ~20% Werkzeugaufruf-Ausfallrate

In etwa 20 % der Anfällen ruft Gemini 3.1 Pro das erforderliche submit_slide-Werkzeug nicht auf. Stattdessen zeigt es mehrere Fehlermuster:

  • Gibt rohe HTML-Vorlagen als Klartext aus, beschreibt, was es "erstellen würde", anstatt das Werkzeug auszulösen.
  • Generiert Bilder korrekt, stoppt aber ohne Absenden und erreicht Iterationslimits.
  • Ruft Bildgenerierungswerkzeuge auf, schreibt aber natürliche Sprachzusammenfassungen ("Hier ist Ihre schöne Folie...") anstelle des finalen Werkzeugaufrufs.
  • Gerät in Schleifen, die Designbeschreibungen im Text verfeinern, ohne zur Aktion überzugehen.

Da submit_slide der harte Ausstiegspfad ist, führen Fehler dazu, dass keine Daten an den Orchestrator zurückgegeben werden und Nutzergenerierungen fehlschlagen.

2. Verstümmelte/korrupte Ausgaben

Das Modell gibt häufig korrumpierten Text in Antworten zurück – zufällige Zeichenfolgen, kaputte Unicode-Zeichen, halb kodierte Strings. Diese Korruption dringt manchmal in den Folieninhalt ein (Variablenwerte, Vorlagen-Markup), was bedeutet, dass selbst erfolgreiche Übermittlungen Kauderwelsch-Text in Präsentationen anzeigen könnten.

Vergleich mit anderen Modellen

  • Claude Sonnet 4.6: Nahezu null Ausfallrate bei submit_slide-Aufrufen in derselben kreativen Agentenrolle, beschrieben als "langweilig zuverlässig" ohne verstümmelte Ausgaben.
  • GPT-5.2: Mittlere Werkzeugzuverlässigkeit zwischen Gemini und Claude, leidet aber nicht unter Kodierungs-/Kauderwelsch-Problemen.

Versuche zur Problembehebung

Das Team versuchte mehrere Ansätze ohne signifikante Verbesserung:

  • Hinzufügen aggressiver expliziter Anweisungen in System-Prompts: "Sie MÜSSEN submit_slide aufrufen. Geben Sie die Vorlage nicht als Text aus."
  • Einfügen von Few-Shot-Beispielen, die exakt erwartete Werkzeugaufrufmuster zeigen.
  • Reduzieren von Iterationslimits, um schnellere Konvergenz zu erzwingen.
  • Vereinfachen und Reduzieren von Werkzeugschemata.

Trotz dieser Probleme bleibt Gemini 3.1 Pro aufgrund seiner überlegenen Designfähigkeiten, wenn es korrekt funktioniert, in ihrem System aktiv.

📖 Quelle lesen: r/LocalLLaMA

Ad

👀 Siehe auch

ClaudeMeter: Open-Source macOS-Menüleisten-App zur Echtzeit-Verfolgung der Claude-Nutzung
Werkzeuge

ClaudeMeter: Open-Source macOS-Menüleisten-App zur Echtzeit-Verfolgung der Claude-Nutzung

ClaudeMeter ist eine kostenlose, Open-Source-macOS-Menüleisten-App für Claude Max-Abonnenten, die Sitzungs- und wöchentliche Nutzungsprozentsätze, Reset-Timer und Tempoanzeigen anzeigt, ohne den Arbeitsablauf zu unterbrechen. Die gesamte App wurde mit Claude (Claude Code/Opus) für Swift-Code, Supabase-Backend und Edge Functions erstellt.

OpenClawRadar
Antigravitation 2.0 führt OpenSCAD-Architektur-3D-Benchmark an – ModelRift testet 6 LLMs am Pantheon
Werkzeuge

Antigravitation 2.0 führt OpenSCAD-Architektur-3D-Benchmark an – ModelRift testet 6 LLMs am Pantheon

ModelRift hat 6 LLMs getestet, die das Pantheon in OpenSCAD bauen. Antigravity erreichte 4,5/5 Punkte in architektonischer Qualität und schlug damit die Baseline Codex 5.5. Cursor 3.5 war am schnellsten, aber am schwächsten.

OpenClawRadar
WebMCP-Browser-APIs könnten den Bedarf an Web-Scraping für KI-Agenten verringern.
Werkzeuge

WebMCP-Browser-APIs könnten den Bedarf an Web-Scraping für KI-Agenten verringern.

Googles WebMCP führt Browser-APIs ein, die es Websites ermöglichen, Tools für KI-Agenten direkt aufrufbar zu registrieren, wodurch viel DOM-Scraping und Anti-Bot-Umgehungen entfallen könnten, die Entwickler derzeit aufbauen.

OpenClawRadar
Lumyr: Dashboard-Generierung mit Claude, Python und Streamlit-Automatisierung
Werkzeuge

Lumyr: Dashboard-Generierung mit Claude, Python und Streamlit-Automatisierung

Lumyr ist ein Tool, das live, teilbare Dashboards aus einfachen englischen Beschreibungen generiert, indem es Claude für die Dashboard-Erstellung nutzt und die Python- und Streamlit-Ebene automatisiert. Benutzer müssen kein Python schreiben, Streamlit öffnen, etwas bereitstellen, Hosting einrichten oder Infrastruktur verwalten.

OpenClawRadar