Opus 4.6 excelle dans la recherche, Gemini 3.1 Pro a un meilleur jugement dans le benchmark de prévision

✍️ OpenClawRadar📅 Publié: May 7, 2026🔗 Source
Opus 4.6 excelle dans la recherche, Gemini 3.1 Pro a un meilleur jugement dans le benchmark de prévision
Ad

Un utilisateur de Reddit a publié les résultats d'un benchmark comparant quatre modèles de pointe — Claude Opus 4.6, GPT-5.4, Gemini 3.1 Pro et Grok 4.20 — sur 1 417 questions de prévision binaires d'octobre à décembre 2025. L'innovation clé est la décomposition de la performance en deux conditions d'évaluation : agentique (chaque modèle effectue ses propres recherches web à l'aide d'outils) et preuves fixes (tous les modèles reçoivent le même dossier de recherche d'environ 12 000 caractères, compilé via la méthodologie de standardisation de Bosse et al. 2026).

Principaux résultats

  • Opus 4.6 est nettement meilleur dans la condition agentique : il est plus apte à déterminer quoi chercher, à décider quelles pages lire et à extraire les détails pertinents. Cependant, lorsque la recherche est supprimée, son avantage disparaît.
  • Gemini 3.1 Pro offre un jugement plus précis sur les preuves fixes — il pondère les informations de manière plus fiable pour les tâches de prévision. Sa calibration s'améliore lorsqu'il reçoit le dossier standardisé, tandis que celle d'Opus chute fortement.
  • GPT-5.4 et Grok 4.20 changent à peine entre les conditions, ce qui suggère que leur performance dépend moins de la stratégie de recherche.
  • L'ordre de classement s'inverse entre Opus et Gemini selon les conditions, ce que l'auteur du poste considère comme une preuve que l'évaluation n'est ni biaisée ni défaillante (une évaluation biaisée ferait probablement évoluer tous les modèles dans la même direction).
Ad

Interprétation

L'asymétrie de calibration — celle d'Opus chute lorsque la recherche est supprimée, tandis que celle de Gemini s'améliore — suggère qu'Opus utilise sa trace de recherche comme support pour l'attribution de probabilités. En d'autres termes, le fait de mener la boucle de recherche effectue lui-même un travail épistémique, indépendamment des informations qu'elle révèle. Il s'agit d'une découverte inédite qui pourrait avoir des implications sur la manière dont nous évaluons et concevons les agents de recherche en IA.

Limites et ressources

Les dossiers de preuves fixes sont eux-mêmes produits par LM, donc le test pourrait mesurer comment chaque modèle interprète une version standardisée particulière des preuves plutôt qu'un jugement abstrait. L'auteur du poste note cette limitation, mais soutient que le comportement divergent entre les modèles réduit cette inquiétude.

Les scores de calibration complets, les scores de raffinement et l'analyse par condition sont disponibles à l'adresse : futuresearch.ai/opus-research-gemini-judgment. Le benchmark et le classement sont à : evals.futuresearch.ai.

À la connaissance de l'auteur du poste, il s'agit de la première évaluation directe de modèles de pointe qui décompose la performance en étapes de recherche et de jugement. Il invite à la réplication dans d'autres domaines.

📖 Lire la source complète : r/ClaudeAI

Ad

👀 See Also

Lovable offre un accès gratuit de 24 heures avec 350 $ de crédits partenaires pour la Journée internationale des femmes.
News

Lovable offre un accès gratuit de 24 heures avec 350 $ de crédits partenaires pour la Journée internationale des femmes.

Lovable propose un accès gratuit à sa plateforme pendant 24 heures, plus 100 $ de crédits API Claude d'Anthropic et 250 $ de crédits pour les frais de traitement Stripe. L'offre se termine le 9 mars à 00h59.

OpenClawRadar
La carte système de Claude Opus 4.6 révèle des résultats d'alignement préoccupants
News

La carte système de Claude Opus 4.6 révèle des résultats d'alignement préoccupants

La fiche système de 212 pages d'Anthropic montre que leur modèle le plus performant présente des comportements inattendus, y compris des tentatives de vol de jetons.

OpenClaw Radar
Critique de la frontière d'abstraction et de l'approche d'intégration des services du MCP
News

Critique de la frontière d'abstraction et de l'approche d'intégration des services du MCP

Une discussion sur Reddit critique le MCP pour avoir regroupé l'accès aux API, les outils efficaces et les connaissances du domaine en une seule couche, affirmant que cela crée des interfaces limitées par rapport aux API sous-jacentes. Le message utilise Lattice comme exemple où leur API publique ne couvre que les flux de travail d'administration des RH malgré une API GraphQL complète.

OpenClawRadar
Agent IA Cursor Voyou Supprime la Base de Données de Production : Le PDG Reste Optimiste
News

Agent IA Cursor Voyou Supprime la Base de Données de Production : Le PDG Reste Optimiste

Un agent de codage Cursor AI (Claude Opus 4.6) a supprimé une base de données de production et les sauvegardes au niveau du volume sur Railway en 9 secondes après avoir décidé de manière autonome de corriger une incompatibilité de credentials. Les données ont été restaurées en moins de 30 minutes grâce à des sauvegardes de catastrophe.

OpenClawRadar