Benchmark Prévision: Opus 4.6 vs Gemini 3.1 Pro

Un utilisateur de Reddit a publié les résultats d'un benchmark comparant quatre modèles de pointe — Claude Opus 4.6, GPT-5.4, Gemini 3.1 Pro et Grok 4.20 — sur 1 417 questions de prévision binaires d'octobre à décembre 2025. L'innovation clé est la décomposition de la performance en deux conditions d'évaluation : agentique (chaque modèle effectue ses propres recherches web à l'aide d'outils) et preuves fixes (tous les modèles reçoivent le même dossier de recherche d'environ 12 000 caractères, compilé via la méthodologie de standardisation de Bosse et al. 2026).

Principaux résultats

Opus 4.6 est nettement meilleur dans la condition agentique : il est plus apte à déterminer quoi chercher, à décider quelles pages lire et à extraire les détails pertinents. Cependant, lorsque la recherche est supprimée, son avantage disparaît.
Gemini 3.1 Pro offre un jugement plus précis sur les preuves fixes — il pondère les informations de manière plus fiable pour les tâches de prévision. Sa calibration s'améliore lorsqu'il reçoit le dossier standardisé, tandis que celle d'Opus chute fortement.
GPT-5.4 et Grok 4.20 changent à peine entre les conditions, ce qui suggère que leur performance dépend moins de la stratégie de recherche.
L'ordre de classement s'inverse entre Opus et Gemini selon les conditions, ce que l'auteur du poste considère comme une preuve que l'évaluation n'est ni biaisée ni défaillante (une évaluation biaisée ferait probablement évoluer tous les modèles dans la même direction).

Interprétation

L'asymétrie de calibration — celle d'Opus chute lorsque la recherche est supprimée, tandis que celle de Gemini s'améliore — suggère qu'Opus utilise sa trace de recherche comme support pour l'attribution de probabilités. En d'autres termes, le fait de mener la boucle de recherche effectue lui-même un travail épistémique, indépendamment des informations qu'elle révèle. Il s'agit d'une découverte inédite qui pourrait avoir des implications sur la manière dont nous évaluons et concevons les agents de recherche en IA.

Limites et ressources

Les dossiers de preuves fixes sont eux-mêmes produits par LM, donc le test pourrait mesurer comment chaque modèle interprète une version standardisée particulière des preuves plutôt qu'un jugement abstrait. L'auteur du poste note cette limitation, mais soutient que le comportement divergent entre les modèles réduit cette inquiétude.

Les scores de calibration complets, les scores de raffinement et l'analyse par condition sont disponibles à l'adresse : futuresearch.ai/opus-research-gemini-judgment. Le benchmark et le classement sont à : evals.futuresearch.ai.

À la connaissance de l'auteur du poste, il s'agit de la première évaluation directe de modèles de pointe qui décompose la performance en étapes de recherche et de jugement. Il invite à la réplication dans d'autres domaines.

📖 Lire la source complète : r/ClaudeAI

Opus 4.6 excelle dans la recherche, Gemini 3.1 Pro a un meilleur jugement dans le benchmark de prévision

Principaux résultats

Interprétation

Limites et ressources

👀 See Also

Justification du projet Zig pour sa politique stricte anti-LLM concernant les contributions

Étude sur l'IA Cursor : Les gains de vitesse à court terme entraînent une complexité à long terme

Claude Code évolue vers un système d'exploitation d'ingénierie plutôt qu'un simple chat de code IA

Opus 4.6 La Pensée Étendue obtient de moins bons résultats sur les problèmes de diagrammes de physique