Opus 4.6 Erweitertes Denken schneidet bei Physik-Diagrammproblemen schlechter ab

Leistungsproblem mit dem erweiterten Denkmodus
Ein Nutzer auf r/ClaudeAI berichtete über Tests von Opus 4.6 und Gemini 3.1 Pro bei Physikproblemen, die die Interpretation visueller Diagramme erfordern. Die Tests zeigten eine spezifische Leistungsregression bei Opus 4.6 bei Verwendung des erweiterten Denkmodus.
Wichtige Erkenntnisse aus den Tests
- Testumfang: 5 Physikprobleme, bei denen "ein großer Teil des Problems darin besteht, visuelle Diagramme zu interpretieren, die Szenarien darstellen"
- Opus 4.6 mit erweitertem Denken: Hat alle 5 Probleme "völlig falsch gelöst aufgrund einer grundlegenden Fehlinterpretation des Diagramms"
- Gemini 3.1 Pro: Hat alle 5 Probleme "mit Bravour gemeistert"
- Opus 4.6 ohne erweitertes Denken: Hat die Probleme erfolgreich gelöst und war "auch viel schneller"
Der Nutzer beschrieb dies als "wirklich seltsames Verhalten", da erweitertes Denken normalerweise die Leistung verbessert, aber in diesem speziellen Fall der Diagramminterpretation zu konsequentem Versagen führte.
📖 Read the full source: r/ClaudeAI
👀 Siehe auch

Ubuntu Linux integriert im nächsten Jahr KI-Funktionen, beginnend mit lokalem Inferencing
Canonical kündigt einen mehrjährigen KI-Vorstoß für Ubuntu an, mit Fokus auf lokale Inferenz, agentische Workflows und kontextbewusste OS-Funktionen, die im Laufe des Jahres 2026 ausgerollt werden.

Cowork erzwingt mittleren Aufwand und ignoriert Benutzereinstellungen für Claude Opus
Ein Nutzer des Max-Plans entdeckte, dass Cowork die Befehlszeilenoptionen --effort medium --model claude-opus-4-6 hartkodiert übergibt und dabei Umgebungsvariablen sowie settings.json-Überschreibungen ignoriert. Das bedeutet, dass Nutzer trotz Bezahlung für hohen Aufwand und Zugriff auf 1M Kontext auf mittleren Aufwand und Standard-Kontextfenster beschränkt sind.

Claude Pro-Benutzer dokumentieren chronische Schnittstellen- und Workflow-Probleme
Ein langjähriger Claude Pro-Abonnent beschreibt fünf anhaltende Probleme: Dateizerstörung bei Korrekturen, fehlende Versionsverwaltung, Gedächtnisverlust nach Kontextkomprimierung, inkonsistente Entscheidungsfindung und ignorierte Benutzereinstellungen. Der Nutzer berichtet, dass diese Probleme trotz expliziter Anweisungen im Einstellungsbereich von Claude auftreten.

OpenClaw-Benutzer melden Modellersatz nach Anthropic-Verbot
Eine Community-Umfrage auf Reddit, X, YouTube und GitHub zeigt GPT-5.x als den am häufigsten übernommenen Ersatz für Claude in OpenClaw-Workflows, wobei Kimi K2.5 die Community-Abstimmungen anführt und hybride Setups an Beliebtheit gewinnen.