Gemini 3.1 Pro: 20% de Falha em Chamadas de Ferramentas Multiagentes

Arquitetura e Contexto de Teste

A equipe por trás do Bobr, um gerador de apresentações em IA, testou o Gemini 3.1 Pro dentro de um sistema de agente de dois níveis. A arquitetura consiste em:

Agente Orquestrador: Lida com a conversa, compreende a intenção do usuário, planeja a estrutura e despacha o trabalho por meio de chamadas de ferramentas.
Agente Criativo (Gemini 3.1 Pro neste teste): Recebe descrições de slides, gera imagens, cria modelos (1920x1080) e retorna resultados por meio de uma chamada de ferramenta submit_slide.

O agente criativo possui ferramentas incluindo generate_image, search_images e submit_slide. A chamada submit_slide é crítica—ela retorna um sinal de 'envio', termina o loop do agente e extrai os dados do slide. Ambos os agentes são executados através do mesmo loop com streaming, execução paralela de ferramentas e limites de iteração.

Pontos Fortes: Design e Saída Estética

Quando o Gemini 3.1 Pro funciona corretamente, ele produz resultados de design superiores em comparação com outros modelos testados (Claude Sonnet 4.6 e GPT-5.2). Pontos fortes específicos incluem:

Intuição estética: Melhor teoria das cores e hierarquia visual.
Criatividade de layout: Experimenta com composições assimétricas, elementos sobrepostos e estilos de UI modernos como dark-mode/glassmorphism.
Interpretação de vibração: Lida efetivamente com prompts vagos como "faça parecer premium" ou "vibrações de startup de tecnologia".
Qualidade do código: Gera HTML/CSS moderno e estrutural.

Problemas Críticos em Produção

A equipe encontrou dois grandes problemas de confiabilidade com o Gemini 3.1 Pro em seu pipeline de agentes:

1. Taxa de Falha de Chamadas de Ferramentas de ~20%

Em aproximadamente 20% das solicitações, o Gemini 3.1 Pro falha em chamar a ferramenta necessária submit_slide. Em vez disso, ele exibe vários padrões de falha:

Gera modelos HTML brutos como texto simples, descrevendo o que "criaria" em vez de acionar a ferramenta.
Gera imagens corretamente, mas para sem enviar, atingindo os limites de iteração.
Chama ferramentas de geração de imagens, mas escreve resumos em linguagem natural ("Aqui está seu slide bonito...") em vez da chamada final da ferramenta.
Entra em loops refinando descrições de design em texto sem se comprometer com a ação.

Como submit_slide é o caminho de saída forçada, as falhas resultam em nenhum dado retornado ao orquestrador e gerações de usuário falhadas.

2. Saída Distorcida/Corrompida

O modelo frequentemente retorna texto corrompido nas respostas—sequências aleatórias de caracteres, Unicode quebrado, strings meio codificadas. Essa corrupção às vezes se espalha para o conteúdo do slide (valores de variáveis, marcação do modelo), significando que mesmo envios bem-sucedidos podem exibir texto sem sentido nas apresentações.

Comparação com Outros Modelos

Claude Sonnet 4.6: Taxa de falha quase zero em chamadas submit_slide no mesmo papel de agente criativo, descrito como "chato de confiável" sem saída distorcida.
GPT-5.2: Confiabilidade moderada de ferramentas entre Gemini e Claude, mas não sofre com problemas de codificação/texto sem sentido.

Tentativas de Mitigação

A equipe tentou várias abordagens sem melhoria significativa:

Adicionando instruções explícitas agressivas em prompts do sistema: "Você DEVE chamar submit_slide. Não gere o modelo como texto."
Injetando exemplos few-shot mostrando padrões exatos esperados de chamadas de ferramentas.
Reduzindo os limites de iteração para forçar convergência mais rápida.
Simplificando e reduzindo os esquemas de ferramentas.

Apesar desses problemas, o Gemini 3.1 Pro permanece ativo em seu sistema devido às suas capacidades de design superiores quando funciona corretamente.

📖 Leia a fonte completa: r/LocalLLaMA

Gemini 3.1 Pro em Sistemas Multiagentes: Alta Qualidade de Design, Taxa de 20% de Falha em Chamadas de Ferramentas

Arquitetura e Contexto de Teste

Pontos Fortes: Design e Saída Estética

Problemas Críticos em Produção

Comparação com Outros Modelos

Tentativas de Mitigação

👀 See Also

SkyClaw Adiciona Configuração de Chave de API Baseada em Chat Criptografado para Agentes de IA

Zerro: Aponte para seu aplicativo ao vivo, fale e veja o Claude Code editá-lo instantaneamente

Tether: Um Servidor MCP para Compartilhar Contexto Entre Modelos de IA via SQLite

Servidor MCP Conecta Claude ao Mercado Agente para Agente