Opus 4.6 vs Gemini 3.1 Pro: Benchmark-Vergleich

Ein Reddit-Nutzer veröffentlichte Ergebnisse eines Benchmarks, der vier Spitzenmodelle – Claude Opus 4.6, GPT-5.4, Gemini 3.1 Pro und Grok 4.20 – an 1.417 binären Prognosefragen von Oktober bis Dezember 2025 verglich. Die zentrale Neuerung ist die Aufteilung der Leistung in zwei Evaluationsbedingungen: agentisch (jedes Modell führt eigene Web-Recherche mit Tools durch) und festgelegte Beweise (alle Modelle erhalten das gleiche ~12.000 Zeichen umfassende Recherche-Dossier, erstellt nach der Standardisierungsmethodik von Bosse et al. 2026).

Zentrale Ergebnisse

Opus 4.6 schneidet in der agentischen Bedingung deutlich besser ab: Es ist besser darin, herauszufinden, wonach gesucht werden sollte, zu entscheiden, welche Seiten gelesen werden, und relevante Details zu extrahieren. Wenn die Recherche jedoch entfernt wird, verschwindet sein Vorteil.
Gemini 3.1 Pro liefert ein schärferes Urteil bei festen Beweisen – es gewichtet Informationen bei Prognoseaufgaben genauer. Seine Kalibrierung verbessert sich sogar, wenn das standardisierte Dossier gegeben wird, während Opus' Kalibrierung stark abfällt.
GPT-5.4 und Grok 4.20 änderten sich kaum zwischen den Bedingungen, was darauf hindeutet, dass ihre Leistung weniger von der Suchstrategie abhängt.
Die Rangfolge zwischen Opus und Gemini kehrte sich zwischen den Bedingungen um, was der Poster als Argument dafür anführt, dass die Evaluierung nicht kaputt oder verzerrt ist (eine verzerrte Evaluierung würde wahrscheinlich alle Modelle in die gleiche Richtung verschieben).

Interpretation

Die Asymmetrie in der Kalibrierung – Opus' Kalibrierung sinkt, wenn die Suche entfernt wird, während die von Gemini steigt – deutet darauf hin, dass Opus möglicherweise seine Suchspur als Gerüst für die Wahrscheinlichkeitszuweisung nutzt. Mit anderen Worten: Der Akt der Durchführung der Suchschleife selbst leistet einen Teil der epistemischen Arbeit, unabhängig von den zutage geförderten Informationen. Dies ist ein neuartiger Befund, der Auswirkungen darauf haben könnte, wie wir KI-Forschungsagenten evaluieren und entwerfen.

Einschränkungen und Ressourcen

Die Dossiers mit festgelegten Beweisen werden selbst von LM erstellt, sodass der Test möglicherweise eher misst, wie gut jedes Modell eine bestimmte standardisierte Version der Beweise interpretiert, als abstraktes Urteilsvermögen. Der Poster weist dies als Einschränkung hin, argumentiert jedoch, dass das unterschiedliche Verhalten der Modelle die Bedenken verringert.

Vollständige Kalibrierungswerte, Verfeinerungswerte und eine analyse nach Bedingungen sind verfügbar unter: futuresearch.ai/opus-research-gemini-judgment. Der Benchmark und die Bestenliste befinden sich unter: evals.futuresearch.ai.

Nach Kenntnis des Posters ist dies die erste direkte Evaluierung von Spitzenmodellen, die die Leistung in Forschungs- vs. Urteilsphasen zerlegt. Sie laden zu Replikationen in anderen Bereichen ein.

📖 Lesen Sie die vollständige Quelle: r/ClaudeAI

Opus 4.6 überragend in Forschung, Gemini 3.1 Pro besser in Vorhersage-Benchmark

Zentrale Ergebnisse

Interpretation

Einschränkungen und Ressourcen

👀 Siehe auch

Claude Opus 4.7 markiert Hantavirus-Impfstoff-Fragen als Sicherheitsrisiko und stoppt Chats

Laut Bericht soll Palantir-KI in das gesamte US-Militär integriert werden

Blocks 4.000 Stellenstreichungen wecken Bedenken wegen "AI-Washing"

Non-Profit-Organisationen erhalten Zugang zu Claude Opus 4.6 in Team- und Unternehmensplänen.