Gemini 3.1 Pro em Sistemas Multiagentes: Alta Qualidade de Design, Taxa de 20% de Falha em Chamadas de Ferramentas

Arquitetura e Contexto de Teste
A equipe por trás do Bobr, um gerador de apresentações em IA, testou o Gemini 3.1 Pro dentro de um sistema de agente de dois níveis. A arquitetura consiste em:
- Agente Orquestrador: Lida com a conversa, compreende a intenção do usuário, planeja a estrutura e despacha o trabalho por meio de chamadas de ferramentas.
- Agente Criativo (Gemini 3.1 Pro neste teste): Recebe descrições de slides, gera imagens, cria modelos (1920x1080) e retorna resultados por meio de uma chamada de ferramenta
submit_slide.
O agente criativo possui ferramentas incluindo generate_image, search_images e submit_slide. A chamada submit_slide é crítica—ela retorna um sinal de 'envio', termina o loop do agente e extrai os dados do slide. Ambos os agentes são executados através do mesmo loop com streaming, execução paralela de ferramentas e limites de iteração.
Pontos Fortes: Design e Saída Estética
Quando o Gemini 3.1 Pro funciona corretamente, ele produz resultados de design superiores em comparação com outros modelos testados (Claude Sonnet 4.6 e GPT-5.2). Pontos fortes específicos incluem:
- Intuição estética: Melhor teoria das cores e hierarquia visual.
- Criatividade de layout: Experimenta com composições assimétricas, elementos sobrepostos e estilos de UI modernos como dark-mode/glassmorphism.
- Interpretação de vibração: Lida efetivamente com prompts vagos como "faça parecer premium" ou "vibrações de startup de tecnologia".
- Qualidade do código: Gera HTML/CSS moderno e estrutural.
Problemas Críticos em Produção
A equipe encontrou dois grandes problemas de confiabilidade com o Gemini 3.1 Pro em seu pipeline de agentes:
1. Taxa de Falha de Chamadas de Ferramentas de ~20%
Em aproximadamente 20% das solicitações, o Gemini 3.1 Pro falha em chamar a ferramenta necessária submit_slide. Em vez disso, ele exibe vários padrões de falha:
- Gera modelos HTML brutos como texto simples, descrevendo o que "criaria" em vez de acionar a ferramenta.
- Gera imagens corretamente, mas para sem enviar, atingindo os limites de iteração.
- Chama ferramentas de geração de imagens, mas escreve resumos em linguagem natural ("Aqui está seu slide bonito...") em vez da chamada final da ferramenta.
- Entra em loops refinando descrições de design em texto sem se comprometer com a ação.
Como submit_slide é o caminho de saída forçada, as falhas resultam em nenhum dado retornado ao orquestrador e gerações de usuário falhadas.
2. Saída Distorcida/Corrompida
O modelo frequentemente retorna texto corrompido nas respostas—sequências aleatórias de caracteres, Unicode quebrado, strings meio codificadas. Essa corrupção às vezes se espalha para o conteúdo do slide (valores de variáveis, marcação do modelo), significando que mesmo envios bem-sucedidos podem exibir texto sem sentido nas apresentações.
Comparação com Outros Modelos
- Claude Sonnet 4.6: Taxa de falha quase zero em chamadas
submit_slideno mesmo papel de agente criativo, descrito como "chato de confiável" sem saída distorcida. - GPT-5.2: Confiabilidade moderada de ferramentas entre Gemini e Claude, mas não sofre com problemas de codificação/texto sem sentido.
Tentativas de Mitigação
A equipe tentou várias abordagens sem melhoria significativa:
- Adicionando instruções explícitas agressivas em prompts do sistema: "Você DEVE chamar submit_slide. Não gere o modelo como texto."
- Injetando exemplos few-shot mostrando padrões exatos esperados de chamadas de ferramentas.
- Reduzindo os limites de iteração para forçar convergência mais rápida.
- Simplificando e reduzindo os esquemas de ferramentas.
Apesar desses problemas, o Gemini 3.1 Pro permanece ativo em seu sistema devido às suas capacidades de design superiores quando funciona corretamente.
📖 Leia a fonte completa: r/LocalLLaMA
👀 See Also

Ferramenta de sincronização de documentos/contexto de IA para desenvolvedores ganha tração após post no Reddit
Um desenvolvedor compartilhou sua ferramenta de sincronização de documentação e contexto de IA no Reddit, resultando em 1,1 mil downloads, 60 estrelas no GitHub e 192 clones únicos em duas semanas após a postagem em 22 de março.

Lista selecionada de mais de 260 agentes e ferramentas de IA com foco em código aberto e auto-hospedagem
Um repositório abrangente do GitHub lista mais de 260 agentes e frameworks de IA, com ênfase em opções de código aberto, auto-hospedadas e locais, incluindo Ollama, OpenClaw e DeerFlow.

iai-mcp: Daemon local oferece ao Claude memória persistente entre sessões com 99% de recall
iai-mcp é um daemon local de código aberto que captura cada conversa do Claude, organiza em três níveis de memória e fornece contexto de volta em novas sessões. Obtém recall verbatim >99%, recuperação em menos de 100ms e custo de início de sessão inferior a 3.000 tokens.

Habilidades do Claude de Código Aberto para Gerentes de Produto: Gerador de PRD, Histórias de Usuário, Anotações de Reuniões
Um desenvolvedor lançou cinco habilidades gratuitas do Claude AI para gerentes de produto que geram arquivos .docx formatados para PRDs, histórias de usuário, síntese de reuniões, pesquisa de mercado e atualizações para stakeholders. As ferramentas evitam conteúdo alucinado e usam modelos estruturados.