Gemini 3.1 Pro en Sistemas Multiagente: Alta Calidad de Diseño, Tasa de Fallos en Llamadas a Herramientas del 20%

Arquitectura y Contexto de Pruebas
El equipo detrás de Bobr, un generador de presentaciones con IA, probó Gemini 3.1 Pro dentro de un sistema de agentes de dos niveles. La arquitectura consiste en:
- Agente Orquestador: Maneja la conversación, comprende la intención del usuario, planifica la estructura y despacha el trabajo mediante llamadas a herramientas.
- Agente Creativo (Gemini 3.1 Pro en esta prueba): Recibe descripciones de diapositivas, genera imágenes, construye plantillas (1920x1080) y devuelve resultados mediante una llamada a la herramienta
submit_slide.
El agente creativo tiene herramientas que incluyen generate_image, search_images y submit_slide. La llamada submit_slide es crítica: devuelve una señal de 'envío', termina el bucle del agente y extrae los datos de la diapositiva. Ambos agentes se ejecutan a través del mismo bucle con transmisión en tiempo real, ejecución paralela de herramientas y límites de iteración.
Fortalezas: Diseño y Resultados Estéticos
Cuando Gemini 3.1 Pro funciona correctamente, produce resultados de diseño superiores en comparación con otros modelos probados (Claude Sonnet 4.6 y GPT-5.2). Las fortalezas específicas incluyen:
- Intuición estética: Mejor teoría del color y jerarquía visual.
- Creatividad en el diseño: Experimenta con composiciones asimétricas, elementos superpuestos y estilos de interfaz modernos como modo oscuro/glassmorphism.
- Interpretación de ambiente: Maneja efectivamente indicaciones vagas como "haz que se sienta premium" o "vibra de startup tecnológica".
- Calidad del código: Genera HTML/CSS moderno y estructural.
Problemas Críticos en Producción
El equipo encontró dos problemas principales de confiabilidad con Gemini 3.1 Pro en su canalización de agentes:
1. Tasa de Falla en Llamadas a Herramientas de ~20%
En aproximadamente el 20% de las solicitudes, Gemini 3.1 Pro falla al llamar a la herramienta requerida submit_slide. En su lugar, exhibe varios patrones de falla:
- Genera la plantilla HTML en texto plano, describiendo lo que "crearía" en lugar de activar la herramienta.
- Genera imágenes correctamente pero se detiene sin enviar, alcanzando los límites de iteración.
- Llama a las herramientas de generación de imágenes pero escribe resúmenes en lenguaje natural ("Aquí está tu hermosa diapositiva...") en lugar de la llamada final a la herramienta.
- Entra en bucles refinando descripciones de diseño en texto sin comprometerse a la acción.
Dado que submit_slide es la ruta de salida obligatoria, las fallas resultan en que no se devuelven datos al orquestador y generaciones fallidas para el usuario.
2. Salida Distorsionada/Corrupta
El modelo frecuentemente devuelve texto corrupto en las respuestas: secuencias aleatorias de caracteres, Unicode roto, cadenas medio codificadas. Esta corrupción a veces se filtra en el contenido de las diapositivas (valores de variables, marcado de plantillas), lo que significa que incluso los envíos exitosos podrían mostrar texto sin sentido en las presentaciones.
Comparación con Otros Modelos
- Claude Sonnet 4.6: Tasa de falla casi nula en llamadas a
submit_slideen el mismo rol de agente creativo, descrito como "aburridamente confiable" sin salida distorsionada. - GPT-5.2: Confiabilidad moderada de herramientas entre Gemini y Claude, pero no sufre de problemas de codificación/texto sin sentido.
Mitigaciones Intentadas
El equipo probó varios enfoques sin mejoras significativas:
- Agregar instrucciones explícitas agresivas en los mensajes del sistema: "DEBES llamar a submit_slide. No generes la plantilla como texto."
- Inyectar ejemplos de pocos disparos mostrando los patrones exactos de llamadas a herramientas esperados.
- Reducir los límites de iteración para forzar una convergencia más rápida.
- Simplificar y reducir los esquemas de herramientas.
A pesar de estos problemas, Gemini 3.1 Pro permanece activo en su sistema debido a sus capacidades de diseño superiores cuando funciona correctamente.
📖 Leer la fuente completa: r/LocalLLaMA
👀 Ver también

La Herramienta Creadora de Habilidades para OpenClaw Ayuda a los Desarrolladores a Empaquetar Flujos de Trabajo
Un desarrollador creó una habilidad llamada skills-creator que guía a los usuarios en la creación de habilidades de calidad para OpenClaw, abordando problemas comunes como descripciones vagas e instrucciones que parecen documentación. Está disponible en ClawHub y ofrece un enfoque basado en diseño con fórmulas de descripción, listas de verificación y niveles de complejidad.

Barra de Estado Dinámica para Claude Code Muestra Actualizaciones en Tiempo Real
Un desarrollador ha mejorado su barra de estado de Claude Code de texto estático a una visualización dinámica con actualizaciones en tiempo real que muestran en qué está trabajando Claude. La configuración está disponible como un gist de GitHub.

Manifiesto Agrega Planes de Token MiniMax con Soporte para Modelo M2.7
Manifest, una capa de enrutamiento de código abierto para OpenClaw, ahora admite planes de tokens MiniMax a partir de $10/mes. El nuevo modelo MiniMax M2.7 está específicamente diseñado para flujos de trabajo de OpenClaw y obtiene 62.7 en MM-ClawBench y 56.2 en SWE-Bench Pro.

SkillMesh: Enrutador Compatible con MCP para Grandes Catálogos de Herramientas Reduce el Tamaño del Contexto en un 70%
SkillMesh es un enrutador compatible con MCP que recupera únicamente las tarjetas de expertos relevantes para las consultas de agentes de IA, reduciendo el tamaño del contexto en un 70% y mejorando la selección de herramientas. Es compatible con Claude a través del servidor MCP, paquetes de habilidades Codex y esquemas de funciones estilo OpenAI.