Opus 4.6 vs Gemini 3.1 Pro: 研究と判断力のベンチマーク比較

あるRedditユーザーが、4つのフロンティアモデル（Claude Opus 4.6、GPT-5.4、Gemini 3.1 Pro、Grok 4.20）を2025年10月～12月の1,417の二値予測問題で比較したベンチマーク結果を投稿した。重要な革新点は、パフォーマンスを2つの評価条件に分解したことだ：エージェント的（各モデルがツールを使い自らウェブリサーチを行う）と固定証拠（全モデルがBosseら2026年の標準化手法で作成された約12,000文字のリサーチ資料を受け取る）。

主な発見

Opus 4.6はエージェント的条件で劇的に優れる：何を検索すべきか、どのページを読むべきか、関連詳細を抽出するかを見極める能力が高い。しかし、リサーチを除くとその優位性は消える。
Gemini 3.1 Proは固定証拠に対してより鋭い判断を示す——予測タスクでの情報の重み付けがより正確。標準化された資料を与えられると較正が実際に改善する一方、Opusの較正は急降下する。
GPT-5.4とGrok 4.20は条件間でほとんど変化せず、パフォーマンスが検索戦略にあまり依存しないことを示唆。
OpusとGeminiの順位が条件間で逆転したことは、投稿者によれば評価が壊れても偏ってもいないことを示す（偏った評価なら全モデルが同じ方向に動くはず）。

解釈

較正の非対称性——Opusの較正は検索を除くと低下し、Geminiの較正は向上する——は、Opusが検索トレースを確率割り当ての足場として利用している可能性を示唆する。言い換えれば、検索ループの実行自体が、それが表面化する情報とは別に、認識論的な仕事の一部を担っている。これは新しい発見であり、AIリサーチエージェントの評価と設計に影響を与える可能性がある。