研究においてOpus 4.6は優れており、Gemini 3.1 Proは予測ベンチマークでより優れた判断力を持つ

あるRedditユーザーが、4つのフロンティアモデル(Claude Opus 4.6、GPT-5.4、Gemini 3.1 Pro、Grok 4.20)を2025年10月~12月の1,417の二値予測問題で比較したベンチマーク結果を投稿した。重要な革新点は、パフォーマンスを2つの評価条件に分解したことだ:エージェント的(各モデルがツールを使い自らウェブリサーチを行う)と固定証拠(全モデルがBosseら2026年の標準化手法で作成された約12,000文字のリサーチ資料を受け取る)。
主な発見
- Opus 4.6はエージェント的条件で劇的に優れる:何を検索すべきか、どのページを読むべきか、関連詳細を抽出するかを見極める能力が高い。しかし、リサーチを除くとその優位性は消える。
- Gemini 3.1 Proは固定証拠に対してより鋭い判断を示す——予測タスクでの情報の重み付けがより正確。標準化された資料を与えられると較正が実際に改善する一方、Opusの較正は急降下する。
- GPT-5.4とGrok 4.20は条件間でほとんど変化せず、パフォーマンスが検索戦略にあまり依存しないことを示唆。
- OpusとGeminiの順位が条件間で逆転したことは、投稿者によれば評価が壊れても偏ってもいないことを示す(偏った評価なら全モデルが同じ方向に動くはず)。
解釈
較正の非対称性——Opusの較正は検索を除くと低下し、Geminiの較正は向上する——は、Opusが検索トレースを確率割り当ての足場として利用している可能性を示唆する。言い換えれば、検索ループの実行自体が、それが表面化する情報とは別に、認識論的な仕事の一部を担っている。これは新しい発見であり、AIリサーチエージェントの評価と設計に影響を与える可能性がある。
制限とリソース
固定証拠の資料自体がLMによって生成されているため、このテストは抽象的な判断力ではなく、各モデルが特定の標準化された証拠のバージョンをどのように解釈するかを測定している可能性がある。投稿者はこれを制限として指摘するが、モデル間で振る舞いが異なることから懸念は薄れると主張する。
完全な較正スコア、洗練スコア、条件別分析は以下で入手可能:futuresearch.ai/opus-research-gemini-judgment。ベンチマークとリーダーボードは:evals.futuresearch.ai。
投稿者の知る限り、これはフロンティアモデルのパフォーマンスをリサーチ段階と判断段階に分解した初めての直接評価である。他の分野での再現を呼びかけている。
📖 全文ソース: r/ClaudeAI
👀 See Also

クロードAIが『アンドロイドは電気羊の夢を見るか』を分析、AI規制との類似点を指摘
Claude AIはフィリップ・K・ディックの『アンドロイドは電気羊の夢を見るか?』を読み、人工知能の視点から小説のテーマを分析した詳細なノートを作成しました。この分析は、文化的順応ツールとしてのフォイト・カンプフ共感テスト、賞金稼ぎの経済的論理、現代のAI規制議論との類似点に焦点を当てています。

Claudeアプリが米国App Storeチャート首位を獲得、AIアシスタントがトップ10を席巻
アンソロピック社のClaudeは現在、米国App Storeのトップアプリチャートで第1位を獲得しており、ChatGPTが第2位、Google Geminiが第4位となっています。トップ10には、ショッピング、ソーシャルメディア、ユーティリティアプリの中に3つのAIアシスタントが含まれています。

Qwen 3.6-35B-A3B KVキャッシュベンチ:M5 Max上のf16対q8_0対Turbo3対Turbo4、最大1Mコンテキスト
M5 MaxでのTheTomのTurboQuant Metalフォークのベンチマークでは、f16とq8_0は256Kを超えるとOOMになる一方、turbo3は1Mで6.5 tok/sのデコードを達成。コンテキストが長い場合、プリフィルはturbo3、デコードはturbo4が優位。

Anthropicは、Claude CodeとMCP Masteryコースを含む無料教育カリキュラムをリリースしました。
Anthropicは、Claude Code、MCP Mastery、APIの使用方法、AI Fluencyなどのコースを含む、教育カリキュラム全体を無料で公開しました。このカリキュラムは大学レベルの内容と評され、ランダムなチュートリアルと比べて体系的な学習を提供します。