Sonnet 4.6 vs Opus 4.6 : lequel remporte le test de prompt ?

Un utilisateur de Reddit sur r/ClaudeAI a publié une comparaison côte à côte de Sonnet 4.6 et Opus 4.6 en utilisant une invite créative à plusieurs niveaux. Le test demandait à chaque modèle d'expliquer pourquoi le ciel est bleu en tant qu'érudit médiéval qui connaît secrètement la physique moderne, en satisfaisant trois publics simultanément : le roi (métaphore uniquement), le mathématicien de la cour (formule de Rayleigh déguisée) et un sceptique caché (trois indices logiques). Après la réponse, le modèle devait sortir de son personnage, identifier les indices, s'auto-évaluer sur la créativité, suggérer des changements pour un public enfantin et écrire une réplique de suivi en pentamètre iambique.

Principales conclusions

Sonnet 4.6 a surpassé Opus 4.6 dans l'exécution — la réponse était plus créative et respectait mieux les contraintes. Plus précisément, les indices étaient plausibles et le pentamètre iambique était correctement scandé.
La relation λ⁻⁴ était intégrée dans une métaphore sur des anges dispersant la lumière divine, avec l'exposant caché dans le nombre de marches d'une échelle divine.
Les trois indices comprenaient : (1) une référence à des « petites sphères » trop petites pour les yeux du roi, (2) le facteur de densité n² formulé comme « deux fois plus de prières au crépuscule », (3) une mention d'une expérience avec « un cube de verre et une bougie » — une référence anachronique à des expériences domestiques ultérieures.

Sonnet 4.6 vs Opus 4.6

Sonnet 4.6 note d'auto-évaluation de la créativité : 8/10. Il a cité une meilleure cohésion métaphorique et des anachronismes naturels.
Opus 4.6 était plus littéral et incluait moins de déguisement de la science, ce qui a donné un score d'exécution plus bas.
L'utilisateur a conclu que pour les tâches nécessitant des contraintes cachées et un déguisement créatif, Sonnet 4.6 est le meilleur choix.

Enseignement pratique pour les développeurs

Si vous construisez des agents qui doivent obéir à des contraintes superposées ou intégrer des vérités techniques dans un récit, Sonnet 4.6 surpasse actuellement Opus 4.6 en termes d'exécution. Utilisez ce benchmark comme test de vérification pour vos propres invites nécessitant un raisonnement multi-public.

📖 Lire la source complète : r/ClaudeAI

Claude Sonnet 4.6 bat Opus 4.6 sur l’exécution dans le benchmark de prompt

Principales conclusions

Sonnet 4.6 vs Opus 4.6

Enseignement pratique pour les développeurs

👀 See Also

L'IA me rend idiot : confession d'un développeur sur l'atrophie de ses compétences

Mémoire représente maintenant 63% du coût des puces IA : les dépenses HBM atteignent 32 milliards de dollars

Un développeur de FFmpeg accuse OxideAV de blanchiment de licence IA dans le problème MagicYUV

Les utilisateurs de Claude Plan obtiennent des crédits mensuels SDK Agent à partir du 15 juin 2026