Gemini 3.1 Pro in Multi-Agenten-Systemen: Hohe Designqualität, 20% Fehlerrate bei Tool-Aufrufen

Architektur und Testkontext
Das Team hinter Bobr, einem KI-Präsentationsgenerator, testete Gemini 3.1 Pro in einem zweistufigen Agentensystem. Die Architektur besteht aus:
- Orchestrator-Agent: Handhabt die Konversation, versteht die Nutzerabsicht, plant die Struktur und verteilt die Arbeit über Werkzeugaufrufe.
- Kreativ-Agent (in diesem Test Gemini 3.1 Pro): Erhält Folienbeschreibungen, generiert Bilder, erstellt Vorlagen (1920x1080) und gibt Ergebnisse über einen
submit_slide-Werkzeugaufruf zurück.
Der kreative Agent verfügt über Werkzeuge wie generate_image, search_images und submit_slide. Der submit_slide-Aufruf ist entscheidend – er gibt ein 'Submit'-Signal zurück, beendet die Agentenschleife und extrahiert die Folien-Daten. Beide Agenten laufen durch dieselbe Schleife mit Streaming, paralleler Werkzeugausführung und Iterationslimits.
Stärken: Design und ästhetische Ergebnisse
Wenn Gemini 3.1 Pro korrekt funktioniert, erzeugt es im Vergleich zu anderen getesteten Modellen (Claude Sonnet 4.6 und GPT-5.2) überlegene Design-Ergebnisse. Spezifische Stärken umfassen:
- Ästhetische Intuition: Bessere Farbtheorie und visuelle Hierarchie.
- Layout-Kreativität: Experimentiert mit asymmetrischen Kompositionen, überlappenden Elementen und modernen UI-Stilen wie Dark-Mode/Glassmorphism.
- Stimmungserfassung: Verarbeitet effektiv vage Anweisungen wie "mach es hochwertig" oder "Tech-Startup-Vibes".
- Code-Qualität: Erzeugt modernen, strukturellen HTML/CSS-Code.
Kritische Probleme in der Produktion
Das Team stieß auf zwei große Zuverlässigkeitsprobleme mit Gemini 3.1 Pro in ihrer agentenbasierten Pipeline:
1. ~20% Werkzeugaufruf-Ausfallrate
In etwa 20 % der Anfällen ruft Gemini 3.1 Pro das erforderliche submit_slide-Werkzeug nicht auf. Stattdessen zeigt es mehrere Fehlermuster:
- Gibt rohe HTML-Vorlagen als Klartext aus, beschreibt, was es "erstellen würde", anstatt das Werkzeug auszulösen.
- Generiert Bilder korrekt, stoppt aber ohne Absenden und erreicht Iterationslimits.
- Ruft Bildgenerierungswerkzeuge auf, schreibt aber natürliche Sprachzusammenfassungen ("Hier ist Ihre schöne Folie...") anstelle des finalen Werkzeugaufrufs.
- Gerät in Schleifen, die Designbeschreibungen im Text verfeinern, ohne zur Aktion überzugehen.
Da submit_slide der harte Ausstiegspfad ist, führen Fehler dazu, dass keine Daten an den Orchestrator zurückgegeben werden und Nutzergenerierungen fehlschlagen.
2. Verstümmelte/korrupte Ausgaben
Das Modell gibt häufig korrumpierten Text in Antworten zurück – zufällige Zeichenfolgen, kaputte Unicode-Zeichen, halb kodierte Strings. Diese Korruption dringt manchmal in den Folieninhalt ein (Variablenwerte, Vorlagen-Markup), was bedeutet, dass selbst erfolgreiche Übermittlungen Kauderwelsch-Text in Präsentationen anzeigen könnten.
Vergleich mit anderen Modellen
- Claude Sonnet 4.6: Nahezu null Ausfallrate bei
submit_slide-Aufrufen in derselben kreativen Agentenrolle, beschrieben als "langweilig zuverlässig" ohne verstümmelte Ausgaben. - GPT-5.2: Mittlere Werkzeugzuverlässigkeit zwischen Gemini und Claude, leidet aber nicht unter Kodierungs-/Kauderwelsch-Problemen.
Versuche zur Problembehebung
Das Team versuchte mehrere Ansätze ohne signifikante Verbesserung:
- Hinzufügen aggressiver expliziter Anweisungen in System-Prompts: "Sie MÜSSEN submit_slide aufrufen. Geben Sie die Vorlage nicht als Text aus."
- Einfügen von Few-Shot-Beispielen, die exakt erwartete Werkzeugaufrufmuster zeigen.
- Reduzieren von Iterationslimits, um schnellere Konvergenz zu erzwingen.
- Vereinfachen und Reduzieren von Werkzeugschemata.
Trotz dieser Probleme bleibt Gemini 3.1 Pro aufgrund seiner überlegenen Designfähigkeiten, wenn es korrekt funktioniert, in ihrem System aktiv.
📖 Quelle lesen: r/LocalLLaMA
👀 Siehe auch

ClaudeMeter: Open-Source macOS-Menüleisten-App zur Echtzeit-Verfolgung der Claude-Nutzung
ClaudeMeter ist eine kostenlose, Open-Source-macOS-Menüleisten-App für Claude Max-Abonnenten, die Sitzungs- und wöchentliche Nutzungsprozentsätze, Reset-Timer und Tempoanzeigen anzeigt, ohne den Arbeitsablauf zu unterbrechen. Die gesamte App wurde mit Claude (Claude Code/Opus) für Swift-Code, Supabase-Backend und Edge Functions erstellt.

Antigravitation 2.0 führt OpenSCAD-Architektur-3D-Benchmark an – ModelRift testet 6 LLMs am Pantheon
ModelRift hat 6 LLMs getestet, die das Pantheon in OpenSCAD bauen. Antigravity erreichte 4,5/5 Punkte in architektonischer Qualität und schlug damit die Baseline Codex 5.5. Cursor 3.5 war am schnellsten, aber am schwächsten.

WebMCP-Browser-APIs könnten den Bedarf an Web-Scraping für KI-Agenten verringern.
Googles WebMCP führt Browser-APIs ein, die es Websites ermöglichen, Tools für KI-Agenten direkt aufrufbar zu registrieren, wodurch viel DOM-Scraping und Anti-Bot-Umgehungen entfallen könnten, die Entwickler derzeit aufbauen.

Lumyr: Dashboard-Generierung mit Claude, Python und Streamlit-Automatisierung
Lumyr ist ein Tool, das live, teilbare Dashboards aus einfachen englischen Beschreibungen generiert, indem es Claude für die Dashboard-Erstellung nutzt und die Python- und Streamlit-Ebene automatisiert. Benutzer müssen kein Python schreiben, Streamlit öffnen, etwas bereitstellen, Hosting einrichten oder Infrastruktur verwalten.