Gemini 3.1 Pro Multiagente: Tasa de Fallos 20% en Herramientas

Arquitectura y Contexto de Pruebas

El equipo detrás de Bobr, un generador de presentaciones con IA, probó Gemini 3.1 Pro dentro de un sistema de agentes de dos niveles. La arquitectura consiste en:

Agente Orquestador: Maneja la conversación, comprende la intención del usuario, planifica la estructura y despacha el trabajo mediante llamadas a herramientas.
Agente Creativo (Gemini 3.1 Pro en esta prueba): Recibe descripciones de diapositivas, genera imágenes, construye plantillas (1920x1080) y devuelve resultados mediante una llamada a la herramienta submit_slide.

El agente creativo tiene herramientas que incluyen generate_image, search_images y submit_slide. La llamada submit_slide es crítica: devuelve una señal de 'envío', termina el bucle del agente y extrae los datos de la diapositiva. Ambos agentes se ejecutan a través del mismo bucle con transmisión en tiempo real, ejecución paralela de herramientas y límites de iteración.

Fortalezas: Diseño y Resultados Estéticos

Cuando Gemini 3.1 Pro funciona correctamente, produce resultados de diseño superiores en comparación con otros modelos probados (Claude Sonnet 4.6 y GPT-5.2). Las fortalezas específicas incluyen:

Intuición estética: Mejor teoría del color y jerarquía visual.
Creatividad en el diseño: Experimenta con composiciones asimétricas, elementos superpuestos y estilos de interfaz modernos como modo oscuro/glassmorphism.
Interpretación de ambiente: Maneja efectivamente indicaciones vagas como "haz que se sienta premium" o "vibra de startup tecnológica".
Calidad del código: Genera HTML/CSS moderno y estructural.

Problemas Críticos en Producción

El equipo encontró dos problemas principales de confiabilidad con Gemini 3.1 Pro en su canalización de agentes:

1. Tasa de Falla en Llamadas a Herramientas de ~20%

En aproximadamente el 20% de las solicitudes, Gemini 3.1 Pro falla al llamar a la herramienta requerida submit_slide. En su lugar, exhibe varios patrones de falla:

Genera la plantilla HTML en texto plano, describiendo lo que "crearía" en lugar de activar la herramienta.
Genera imágenes correctamente pero se detiene sin enviar, alcanzando los límites de iteración.
Llama a las herramientas de generación de imágenes pero escribe resúmenes en lenguaje natural ("Aquí está tu hermosa diapositiva...") en lugar de la llamada final a la herramienta.
Entra en bucles refinando descripciones de diseño en texto sin comprometerse a la acción.

Dado que submit_slide es la ruta de salida obligatoria, las fallas resultan en que no se devuelven datos al orquestador y generaciones fallidas para el usuario.

2. Salida Distorsionada/Corrupta

El modelo frecuentemente devuelve texto corrupto en las respuestas: secuencias aleatorias de caracteres, Unicode roto, cadenas medio codificadas. Esta corrupción a veces se filtra en el contenido de las diapositivas (valores de variables, marcado de plantillas), lo que significa que incluso los envíos exitosos podrían mostrar texto sin sentido en las presentaciones.

Comparación con Otros Modelos

Claude Sonnet 4.6: Tasa de falla casi nula en llamadas a submit_slide en el mismo rol de agente creativo, descrito como "aburridamente confiable" sin salida distorsionada.
GPT-5.2: Confiabilidad moderada de herramientas entre Gemini y Claude, pero no sufre de problemas de codificación/texto sin sentido.

Mitigaciones Intentadas

El equipo probó varios enfoques sin mejoras significativas:

Agregar instrucciones explícitas agresivas en los mensajes del sistema: "DEBES llamar a submit_slide. No generes la plantilla como texto."
Inyectar ejemplos de pocos disparos mostrando los patrones exactos de llamadas a herramientas esperados.
Reducir los límites de iteración para forzar una convergencia más rápida.
Simplificar y reducir los esquemas de herramientas.

A pesar de estos problemas, Gemini 3.1 Pro permanece activo en su sistema debido a sus capacidades de diseño superiores cuando funciona correctamente.

📖 Leer la fuente completa: r/LocalLLaMA

Gemini 3.1 Pro en Sistemas Multiagente: Alta Calidad de Diseño, Tasa de Fallos en Llamadas a Herramientas del 20%

Arquitectura y Contexto de Pruebas

Fortalezas: Diseño y Resultados Estéticos

Problemas Críticos en Producción

Comparación con Otros Modelos

Mitigaciones Intentadas

👀 Ver también

Depurando la lógica de verificación de compilación de Claude Code: Por qué falla la búsqueda de nombres y la búsqueda de huella estructural lo soluciona

Claude Cowork vs OpenClaw: Dónde se sostiene y se rompe la narrativa de reemplazo

Tabla de clasificación de modelos votada por la comunidad para OpenClaw lanzada.

Rever UI Cloner: Alternativa Optimizada por IA para la Replicación de UI en lugar del Scraping HTML