Opus 4.6 destaca-se em pesquisa, Gemini 3.1 Pro tem melhor julgamento em benchmark de previsão

✍️ OpenClawRadar📅 Publicado: May 7, 2026🔗 Source
Opus 4.6 destaca-se em pesquisa, Gemini 3.1 Pro tem melhor julgamento em benchmark de previsão
Ad

Um usuário do Reddit publicou resultados de um benchmark comparando quatro modelos de fronteira — Claude Opus 4.6, GPT-5.4, Gemini 3.1 Pro e Grok 4.20 — em 1.417 questões de previsão binária de outubro a dezembro de 2025. A principal inovação é decompor o desempenho em duas condições de avaliação: agentiva (cada modelo realiza sua própria pesquisa na web usando ferramentas) e evidências fixas (todos os modelos recebem o mesmo dossiê de pesquisa de ~12.000 caracteres compilado pela metodologia de padronização Bosse et al. 2026).

Principais descobertas

  • Opus 4.6 tem desempenho dramaticamente melhor na condição agentiva: é melhor em descobrir o que pesquisar, decidir quais páginas ler e extrair detalhes relevantes. No entanto, quando a pesquisa é removida, sua vantagem desaparece.
  • Gemini 3.1 Pro oferece julgamento mais preciso sobre evidências fixas — pondera informações com mais precisão em tarefas de previsão. Sua calibração na verdade melhora quando recebe o dossiê padronizado, enquanto a calibração do Opus cai drasticamente.
  • GPT-5.4 e Grok 4.20 quase não mudaram entre as condições, sugerindo que seu desempenho depende menos da estratégia de busca.
  • A ordem de classificação inverteu entre Opus e Gemini nas condições, o que o autor argumenta indicar que a avaliação não é falha ou tendenciosa (uma avaliação tendenciosa provavelmente moveria todos os modelos na mesma direção).
Ad

Interpretação

A assimetria na calibração — a calibração do Opus cai quando a pesquisa é removida, enquanto a do Gemini melhora — sugere que o Opus pode estar usando seu traço de pesquisa como andaime para atribuição de probabilidade. Em outras palavras, o ato de conduzir o loop de pesquisa por si só faz parte do trabalho epistêmico, separado das informações que ele traz à tona. Esta é uma descoberta inovadora que pode ter implicações sobre como avaliamos e projetamos agentes de pesquisa de IA.

Limitações e recursos

Os dossiês de evidências fixas são eles próprios produzidos por LM, portanto o teste pode medir quão bem cada modelo interpreta uma versão padronizada específica das evidências, em vez de julgamento abstrato. O autor nota isso como uma limitação, mas argumenta que o comportamento divergente entre os modelos reduz a preocupação.

Pontuações completas de calibração, pontuações de refinamento e análise por condição estão disponíveis em: futuresearch.ai/opus-research-gemini-judgment. O benchmark e o leaderboard estão em: evals.futuresearch.ai.

Até onde o autor sabe, esta é a primeira avaliação direta de modelos de fronteira que decompõe o desempenho em estágios de pesquisa vs. julgamento. Eles convidam à replicação em outros domínios.

📖 Leia a fonte original: r/ClaudeAI

Ad

👀 See Also

Autoencoders de Linguagem Natural da Anthropic Transformam as Ativações de Claude em Inglês Legível — Veja Como
News

Autoencoders de Linguagem Natural da Anthropic Transformam as Ativações de Claude em Inglês Legível — Veja Como

A Anthropic lançou os Autoencoders de Linguagem Natural (NLAs) que convertem as ativações internas do Claude em explicações em texto simples, revelando o raciocínio do modelo sobre rimas, consciência de testes de segurança e detecção de trapaça.

OpenClawRadar
SenseNova-U1-8B-MoT: Modelo Nativo Multimodal de Código Aberto com Arquitetura NEO-Unify
News

SenseNova-U1-8B-MoT: Modelo Nativo Multimodal de Código Aberto com Arquitetura NEO-Unify

SenseNova lançou o SenseNova-U1-8B-MoT, um modelo multimodal nativo que elimina tanto o codificador visual quanto o VAE, usando a arquitetura NEO-Unify para compreensão, raciocínio e geração unificados. Ele se destaca em texto para infográficos, edição de imagens e geração intercalada de texto e imagem.

OpenClawRadar
Postagem no Reddit critica fluxos de trabalho de Agentes CEO Virtuais, defende abordagem baseada em habilidades
News

Postagem no Reddit critica fluxos de trabalho de Agentes CEO Virtuais, defende abordagem baseada em habilidades

Uma publicação no Reddit no r/openclaw critica a criação de agentes de IA com títulos de cargo como 'desenvolvedor backend' ou 'growth hacker' como uma sobrecarga desnecessária, propondo, em vez disso, empacotar habilidades como competências reutilizáveis que podem ser chamadas quando necessário.

OpenClawRadar
Revelada a Montagem e Estrutura do Prompt do Sistema Claude Code
News

Revelada a Montagem e Estrutura do Prompt do Sistema Claude Code

Um vazamento de mapa de origem no pacote npm do Claude Code expôs o fluxo de montagem do prompt do sistema, mostrando seções de prefixo estático seguidas por conteúdo dinâmico específico da sessão, com três variantes de identidade e diretrizes de execução detalhadas.

OpenClawRadar