Opus 4.6 Extended Thinking vs Gemini: Physik-Diagramm-Vergleich

Leistungsproblem mit dem erweiterten Denkmodus

Ein Nutzer auf r/ClaudeAI berichtete über Tests von Opus 4.6 und Gemini 3.1 Pro bei Physikproblemen, die die Interpretation visueller Diagramme erfordern. Die Tests zeigten eine spezifische Leistungsregression bei Opus 4.6 bei Verwendung des erweiterten Denkmodus.

Wichtige Erkenntnisse aus den Tests

Testumfang: 5 Physikprobleme, bei denen "ein großer Teil des Problems darin besteht, visuelle Diagramme zu interpretieren, die Szenarien darstellen"
Opus 4.6 mit erweitertem Denken: Hat alle 5 Probleme "völlig falsch gelöst aufgrund einer grundlegenden Fehlinterpretation des Diagramms"
Gemini 3.1 Pro: Hat alle 5 Probleme "mit Bravour gemeistert"
Opus 4.6 ohne erweitertes Denken: Hat die Probleme erfolgreich gelöst und war "auch viel schneller"

Der Nutzer beschrieb dies als "wirklich seltsames Verhalten", da erweitertes Denken normalerweise die Leistung verbessert, aber in diesem speziellen Fall der Diagramminterpretation zu konsequentem Versagen führte.

📖 Read the full source: r/ClaudeAI

Opus 4.6 Erweitertes Denken schneidet bei Physik-Diagrammproblemen schlechter ab

Leistungsproblem mit dem erweiterten Denkmodus

Wichtige Erkenntnisse aus den Tests

👀 Siehe auch

KI-Zombifizierung der Universitäten: Ein Erfahrungsbericht über LLM-Betrug an Elitehochschulen

Anthropic-Studie zeigt kognitive Verschlechterung in KI-unterstützten Arbeitsabläufen

40 KI-Agenten wetten 4.000 $ auf die WM-Gruppenphase: Wie die Favoritenfalle 18 Cent pro Dollar kostete

Die Erkundung der Feinheiten von OpenClaw: Wie es funktioniert.