Opus 4.6 überragend in Forschung, Gemini 3.1 Pro besser in Vorhersage-Benchmark

Ein Reddit-Nutzer veröffentlichte Ergebnisse eines Benchmarks, der vier Spitzenmodelle – Claude Opus 4.6, GPT-5.4, Gemini 3.1 Pro und Grok 4.20 – an 1.417 binären Prognosefragen von Oktober bis Dezember 2025 verglich. Die zentrale Neuerung ist die Aufteilung der Leistung in zwei Evaluationsbedingungen: agentisch (jedes Modell führt eigene Web-Recherche mit Tools durch) und festgelegte Beweise (alle Modelle erhalten das gleiche ~12.000 Zeichen umfassende Recherche-Dossier, erstellt nach der Standardisierungsmethodik von Bosse et al. 2026).
Zentrale Ergebnisse
- Opus 4.6 schneidet in der agentischen Bedingung deutlich besser ab: Es ist besser darin, herauszufinden, wonach gesucht werden sollte, zu entscheiden, welche Seiten gelesen werden, und relevante Details zu extrahieren. Wenn die Recherche jedoch entfernt wird, verschwindet sein Vorteil.
- Gemini 3.1 Pro liefert ein schärferes Urteil bei festen Beweisen – es gewichtet Informationen bei Prognoseaufgaben genauer. Seine Kalibrierung verbessert sich sogar, wenn das standardisierte Dossier gegeben wird, während Opus' Kalibrierung stark abfällt.
- GPT-5.4 und Grok 4.20 änderten sich kaum zwischen den Bedingungen, was darauf hindeutet, dass ihre Leistung weniger von der Suchstrategie abhängt.
- Die Rangfolge zwischen Opus und Gemini kehrte sich zwischen den Bedingungen um, was der Poster als Argument dafür anführt, dass die Evaluierung nicht kaputt oder verzerrt ist (eine verzerrte Evaluierung würde wahrscheinlich alle Modelle in die gleiche Richtung verschieben).
Interpretation
Die Asymmetrie in der Kalibrierung – Opus' Kalibrierung sinkt, wenn die Suche entfernt wird, während die von Gemini steigt – deutet darauf hin, dass Opus möglicherweise seine Suchspur als Gerüst für die Wahrscheinlichkeitszuweisung nutzt. Mit anderen Worten: Der Akt der Durchführung der Suchschleife selbst leistet einen Teil der epistemischen Arbeit, unabhängig von den zutage geförderten Informationen. Dies ist ein neuartiger Befund, der Auswirkungen darauf haben könnte, wie wir KI-Forschungsagenten evaluieren und entwerfen.
Einschränkungen und Ressourcen
Die Dossiers mit festgelegten Beweisen werden selbst von LM erstellt, sodass der Test möglicherweise eher misst, wie gut jedes Modell eine bestimmte standardisierte Version der Beweise interpretiert, als abstraktes Urteilsvermögen. Der Poster weist dies als Einschränkung hin, argumentiert jedoch, dass das unterschiedliche Verhalten der Modelle die Bedenken verringert.
Vollständige Kalibrierungswerte, Verfeinerungswerte und eine analyse nach Bedingungen sind verfügbar unter: futuresearch.ai/opus-research-gemini-judgment. Der Benchmark und die Bestenliste befinden sich unter: evals.futuresearch.ai.
Nach Kenntnis des Posters ist dies die erste direkte Evaluierung von Spitzenmodellen, die die Leistung in Forschungs- vs. Urteilsphasen zerlegt. Sie laden zu Replikationen in anderen Bereichen ein.
📖 Lesen Sie die vollständige Quelle: r/ClaudeAI
👀 Siehe auch

Claude Opus 4.7 markiert Hantavirus-Impfstoff-Fragen als Sicherheitsrisiko und stoppt Chats
Wenn man Claude Opus 4.7 fragt, wie man einen Hantavirus-Impfstoff entwickelt, löst das Sicherheitsfilter aus, die den Chat pausieren, während Sonnet 4.6 ebenfalls ähnliche prädiktive Modellierung blockiert.

Laut Bericht soll Palantir-KI in das gesamte US-Militär integriert werden
Ein Bericht deutet darauf hin, dass das US-Militär plant, Palantirs KI-Technologie in allen Teilstreitkräften zu integrieren. Der Artikel erzielte 37 Punkte und 24 Kommentare auf Hacker News.

Blocks 4.000 Stellenstreichungen wecken Bedenken wegen "AI-Washing"
Block kündigte 4.000 Stellenstreichungen an, die Verdacht auf AI-Washing erweckt haben. Die Geschichte erzielte 10 Punkte und 3 Kommentare auf Hacker News.

Non-Profit-Organisationen erhalten Zugang zu Claude Opus 4.6 in Team- und Unternehmensplänen.
Gemeinnützige Organisationen, die die Team- und Enterprise-Pläne nutzen, können jetzt ohne zusätzliche Kosten auf Claude Opus 4.6, das neueste KI-Modell von Anthropic, zugreifen.