Claude Opus 4.6 vs Gemini 3.1 Pro: Benchmark de Previsão

Um usuário do Reddit publicou resultados de um benchmark comparando quatro modelos de fronteira — Claude Opus 4.6, GPT-5.4, Gemini 3.1 Pro e Grok 4.20 — em 1.417 questões de previsão binária de outubro a dezembro de 2025. A principal inovação é decompor o desempenho em duas condições de avaliação: agentiva (cada modelo realiza sua própria pesquisa na web usando ferramentas) e evidências fixas (todos os modelos recebem o mesmo dossiê de pesquisa de ~12.000 caracteres compilado pela metodologia de padronização Bosse et al. 2026).

Principais descobertas

Opus 4.6 tem desempenho dramaticamente melhor na condição agentiva: é melhor em descobrir o que pesquisar, decidir quais páginas ler e extrair detalhes relevantes. No entanto, quando a pesquisa é removida, sua vantagem desaparece.
Gemini 3.1 Pro oferece julgamento mais preciso sobre evidências fixas — pondera informações com mais precisão em tarefas de previsão. Sua calibração na verdade melhora quando recebe o dossiê padronizado, enquanto a calibração do Opus cai drasticamente.
GPT-5.4 e Grok 4.20 quase não mudaram entre as condições, sugerindo que seu desempenho depende menos da estratégia de busca.
A ordem de classificação inverteu entre Opus e Gemini nas condições, o que o autor argumenta indicar que a avaliação não é falha ou tendenciosa (uma avaliação tendenciosa provavelmente moveria todos os modelos na mesma direção).

Interpretação

A assimetria na calibração — a calibração do Opus cai quando a pesquisa é removida, enquanto a do Gemini melhora — sugere que o Opus pode estar usando seu traço de pesquisa como andaime para atribuição de probabilidade. Em outras palavras, o ato de conduzir o loop de pesquisa por si só faz parte do trabalho epistêmico, separado das informações que ele traz à tona. Esta é uma descoberta inovadora que pode ter implicações sobre como avaliamos e projetamos agentes de pesquisa de IA.

Limitações e recursos

Os dossiês de evidências fixas são eles próprios produzidos por LM, portanto o teste pode medir quão bem cada modelo interpreta uma versão padronizada específica das evidências, em vez de julgamento abstrato. O autor nota isso como uma limitação, mas argumenta que o comportamento divergente entre os modelos reduz a preocupação.

Pontuações completas de calibração, pontuações de refinamento e análise por condição estão disponíveis em: futuresearch.ai/opus-research-gemini-judgment. O benchmark e o leaderboard estão em: evals.futuresearch.ai.

Até onde o autor sabe, esta é a primeira avaliação direta de modelos de fronteira que decompõe o desempenho em estágios de pesquisa vs. julgamento. Eles convidam à replicação em outros domínios.

📖 Leia a fonte original: r/ClaudeAI

Opus 4.6 destaca-se em pesquisa, Gemini 3.1 Pro tem melhor julgamento em benchmark de previsão

Principais descobertas

Interpretação

Limitações e recursos

👀 See Also

Acordo da CBP com a Clearview AI: Reconhecimento Facial para Direcionamento Tático

Claude Code v2.1.133: reversão de worktree.baseRef, caminhos de sandbox, correção de proxy para MCP OAuth

A Comunidade NVIDIA DGX Spark Lança a Spark Arena para Benchmarks Reprodutíveis de LLMs.

Qwen3.5-122B no Blackwell SM120: Problema de Corrupção do Cache KV em fp8 e Descobertas de Desempenho