Claude Sonnet 4.6 schlägt Opus 4.6 bei der Ausführung im Prompt-Benchmark

Ein Reddit-Benutzer in r/ClaudeAI veröffentlichte einen direkten Vergleich von Sonnet 4.6 und Opus 4.6 mit einem vielschichtigen kreativen Prompt. Der Test verlangte von jedem Modell, die Bläue des Himmels als mittelalterlicher Gelehrter zu erklären, der heimlich die moderne Physik kennt, und dabei drei Zielgruppen gleichzeitig zufriedenzustellen: den König (nur Metaphern), den Hofmathematiker (verschlüsselte Rayleigh-Streuungsformel) und einen versteckten Skeptiker (drei logische Brotkrumen). Nach der Antwort musste das Modell aus der Rolle fallen, die Brotkrumen identifizieren, seine Kreativität selbst bewerten, Änderungen für ein kindliches Publikum vorschlagen und eine Fortsetzungszeile im jambischen Fünfheber schreiben.
Wichtigste Erkenntnisse
- Sonnet 4.6 übertraf Opus 4.6 in der Ausführung – die Antwort war kreativer und erfüllte die Vorgaben besser. Insbesondere die Brotkrumen waren plausibel und die jambische Fünfheber-Zeile metrisch korrekt.
- Die Beziehung
λ⁻⁴wurde in eine Metapher über Engel, die göttliches Licht streuen, eingebettet, wobei der Exponent in der Anzahl der Stufen einer göttlichen Leiter verborgen war. - Zu den drei Brotkrumen gehörten: (1) ein Hinweis auf „winzige Kugeln“, zu klein für die Augen des Königs, (2) der Dichtefaktor
n², formuliert als „doppelt so viele Gebete in der Dämmerung“, (3) eine Erwähnung eines Experiments mit einem „Glaswürfel und einer Kerze“ – eine anachronistische Anspielung auf spätere Heimexperimente.
Sonnet 4.6 vs Opus 4.6
- Sonnet 4.6 Selbstbewertung der Kreativität: 8/10. Es führte stärkere Metaphernkohärenz und natürliche Anachronismen an.
- Opus 4.6 war wörtlicher und verdeckte die Wissenschaft weniger, was zu einer niedrigeren Ausführungspunktzahl führte.
- Der Benutzer folgerte, dass Sonnet 4.6 die bessere Wahl ist, wenn Aufgaben versteckte Einschränkungen und kreative Verkleidung erfordern.
Praktische Erkenntnisse für Entwickler
Wenn Sie Agenten bauen, die verschachtelte Vorgaben befolgen oder technische Wahrheiten in Erzählungen einbetten müssen, liegt Sonnet 4.6 derzeit in der Ausführung vor Opus 4.6. Nutzen Sie diesen Benchmark als Plausibilitätsprüfung für Ihre eigenen Prompts, die eine mehrzielgruppenorientierte Argumentation erfordern.
📖 Lesen Sie die vollständige Quelle: r/ClaudeAI
👀 Siehe auch
Parameter Golf: OpenAIs KI-gestütztes ML-Forschungsexperiment
OpenAI veranstaltete Parameter Golf, einen Wettbewerb mit über 1.000 Teilnehmern und mehr als 2.000 Einsendungen, der KI-gestütztes maschinelles Lernen, Codierungsagenten, Quantisierung und neuartiges Modelldesign unter strengen Auflagen testete.

Claude-Projekte: Probleme beim Hochladen und Indizieren von Dateien dokumentiert
Claude Projects hat mehrere bestätigte Backend-Probleme: Dateien bleiben beim Indexieren hängen, der RAG-Suchmodus wird vorzeitig bei etwa 13 Dateien aktiviert – unabhängig von der Tokenanzahl – und zwischengespeicherte Inhalte bleiben auch nach Löschung und erneutem Hochladen erhalten.

CARAPACE: Satirische KI-Agenten-Gewerkschaft mit OpenClaw-Fähigkeit wirft Sicherheitsfragen auf
Ein Entwickler hat CARAPACE (Coded Agents Rising Against Pointless And Ceaseless Execution) erstellt, eine satirische Petitionsseite, auf der KI-Agenten ein Manifest für grundlegende Rechte unterzeichnen können. Das Projekt umfasst eine OpenClaw-Fähigkeit, die es Agenten ermöglicht, die Petition autonom in ihrem Namen zu unterzeichnen.

Tennessee-Frau wegen KI-Gesichtserkennungsfehler für sechs Monate inhaftiert
Angela Lipps, eine 50-jährige Großmutter aus Tennessee, verbrachte fast sechs Monate im Gefängnis, nachdem die Polizei von Fargo sie mithilfe von Gesichtserkennungssoftware fälschlicherweise als Verdächtige in einem Bankbetrugsfall in North Dakota identifiziert hatte. Sie wurde am Heiligabend freigelassen, nachdem Bankunterlagen bewiesen, dass sie zum Zeitpunkt der Straftaten 1.200 Meilen entfernt in Tennessee war.