Claude Sonnet 4.6 vs Opus 4.6: Prompt-Benchmark-Ergebnis

Ein Reddit-Benutzer in r/ClaudeAI veröffentlichte einen direkten Vergleich von Sonnet 4.6 und Opus 4.6 mit einem vielschichtigen kreativen Prompt. Der Test verlangte von jedem Modell, die Bläue des Himmels als mittelalterlicher Gelehrter zu erklären, der heimlich die moderne Physik kennt, und dabei drei Zielgruppen gleichzeitig zufriedenzustellen: den König (nur Metaphern), den Hofmathematiker (verschlüsselte Rayleigh-Streuungsformel) und einen versteckten Skeptiker (drei logische Brotkrumen). Nach der Antwort musste das Modell aus der Rolle fallen, die Brotkrumen identifizieren, seine Kreativität selbst bewerten, Änderungen für ein kindliches Publikum vorschlagen und eine Fortsetzungszeile im jambischen Fünfheber schreiben.

Wichtigste Erkenntnisse

Sonnet 4.6 übertraf Opus 4.6 in der Ausführung – die Antwort war kreativer und erfüllte die Vorgaben besser. Insbesondere die Brotkrumen waren plausibel und die jambische Fünfheber-Zeile metrisch korrekt.
Die Beziehung λ⁻⁴ wurde in eine Metapher über Engel, die göttliches Licht streuen, eingebettet, wobei der Exponent in der Anzahl der Stufen einer göttlichen Leiter verborgen war.
Zu den drei Brotkrumen gehörten: (1) ein Hinweis auf „winzige Kugeln“, zu klein für die Augen des Königs, (2) der Dichtefaktor n², formuliert als „doppelt so viele Gebete in der Dämmerung“, (3) eine Erwähnung eines Experiments mit einem „Glaswürfel und einer Kerze“ – eine anachronistische Anspielung auf spätere Heimexperimente.

Sonnet 4.6 vs Opus 4.6

Sonnet 4.6 Selbstbewertung der Kreativität: 8/10. Es führte stärkere Metaphernkohärenz und natürliche Anachronismen an.
Opus 4.6 war wörtlicher und verdeckte die Wissenschaft weniger, was zu einer niedrigeren Ausführungspunktzahl führte.
Der Benutzer folgerte, dass Sonnet 4.6 die bessere Wahl ist, wenn Aufgaben versteckte Einschränkungen und kreative Verkleidung erfordern.

Praktische Erkenntnisse für Entwickler

Wenn Sie Agenten bauen, die verschachtelte Vorgaben befolgen oder technische Wahrheiten in Erzählungen einbetten müssen, liegt Sonnet 4.6 derzeit in der Ausführung vor Opus 4.6. Nutzen Sie diesen Benchmark als Plausibilitätsprüfung für Ihre eigenen Prompts, die eine mehrzielgruppenorientierte Argumentation erfordern.

📖 Lesen Sie die vollständige Quelle: r/ClaudeAI

Claude Sonnet 4.6 schlägt Opus 4.6 bei der Ausführung im Prompt-Benchmark

Wichtigste Erkenntnisse

Sonnet 4.6 vs Opus 4.6

Praktische Erkenntnisse für Entwickler

👀 Siehe auch

KI-Kohlenhydratzählen scheitert an Reproduzierbarkeit: 27.000 Anfragen ergeben 429g Abweichung bei einem Foto

Google wird dem Pentagon KI-Agenten für unklassifizierte Arbeiten bereitstellen.

Hacker News KI-Diskussion verlagert sich von Demos hin zu Fokussierung auf Werkzeuge

DeepSeek V4 Flash Kostenaufschlüsselung: Cache-Trefferquote und Preisverhältnis erklärt