Claude Sonnet 4.6 bat Opus 4.6 sur l’exécution dans le benchmark de prompt

✍️ OpenClawRadar📅 Publié: May 17, 2026🔗 Source
Claude Sonnet 4.6 bat Opus 4.6 sur l’exécution dans le benchmark de prompt
Ad

Un utilisateur de Reddit sur r/ClaudeAI a publié une comparaison côte à côte de Sonnet 4.6 et Opus 4.6 en utilisant une invite créative à plusieurs niveaux. Le test demandait à chaque modèle d'expliquer pourquoi le ciel est bleu en tant qu'érudit médiéval qui connaît secrètement la physique moderne, en satisfaisant trois publics simultanément : le roi (métaphore uniquement), le mathématicien de la cour (formule de Rayleigh déguisée) et un sceptique caché (trois indices logiques). Après la réponse, le modèle devait sortir de son personnage, identifier les indices, s'auto-évaluer sur la créativité, suggérer des changements pour un public enfantin et écrire une réplique de suivi en pentamètre iambique.

Principales conclusions

  • Sonnet 4.6 a surpassé Opus 4.6 dans l'exécution — la réponse était plus créative et respectait mieux les contraintes. Plus précisément, les indices étaient plausibles et le pentamètre iambique était correctement scandé.
  • La relation λ⁻⁴ était intégrée dans une métaphore sur des anges dispersant la lumière divine, avec l'exposant caché dans le nombre de marches d'une échelle divine.
  • Les trois indices comprenaient : (1) une référence à des « petites sphères » trop petites pour les yeux du roi, (2) le facteur de densité formulé comme « deux fois plus de prières au crépuscule », (3) une mention d'une expérience avec « un cube de verre et une bougie » — une référence anachronique à des expériences domestiques ultérieures.
Ad

Sonnet 4.6 vs Opus 4.6

  • Sonnet 4.6 note d'auto-évaluation de la créativité : 8/10. Il a cité une meilleure cohésion métaphorique et des anachronismes naturels.
  • Opus 4.6 était plus littéral et incluait moins de déguisement de la science, ce qui a donné un score d'exécution plus bas.
  • L'utilisateur a conclu que pour les tâches nécessitant des contraintes cachées et un déguisement créatif, Sonnet 4.6 est le meilleur choix.

Enseignement pratique pour les développeurs

Si vous construisez des agents qui doivent obéir à des contraintes superposées ou intégrer des vérités techniques dans un récit, Sonnet 4.6 surpasse actuellement Opus 4.6 en termes d'exécution. Utilisez ce benchmark comme test de vérification pour vos propres invites nécessitant un raisonnement multi-public.

📖 Lire la source complète : r/ClaudeAI

Ad

👀 See Also

Des chiens-robots alimentés par l'IA déployés pour la surveillance à Atlanta
News

Des chiens-robots alimentés par l'IA déployés pour la surveillance à Atlanta

Des chiens robots à quatre pattes équipés de caméras et d'IA patrouillent dans les rues, les appartements et les chantiers d'Atlanta, diffusant une vidéo à 360° à des opérateurs distants 24h/24 et 7j/7, offrant une alternative moins coûteuse aux gardes humains.

OpenClawRadar
🦀
News

Employés d’Amazon utilisant des agents IA MeshClaw pour « tokenmaxxer » et atteindre leurs objectifs d’utilisation

Les développeurs d'Amazon automatisent des tâches inutiles avec l'outil interne MeshClaw pour gonfler la consommation de tokens d'IA, après que l'entreprise a fixé des objectifs d'utilisation hebdomadaires pour 80% des développeurs et introduit des classements internes.

OpenClawRadar
Claude Code 2.1.132 : Documentation multi-agents, porte de planification, changements de limite de compétences
News

Claude Code 2.1.132 : Documentation multi-agents, porte de planification, changements de limite de compétences

La version v2.1.132 ajoute la documentation des agents gérés pour les sessions multi-agents, les résultats et les webhooks ; introduit une porte de refus par défaut pour les offres proactives /schedule ; réduit la limite de compétences documentée de 64 à 20 par agent.

OpenClawRadar
Claude.ai actuellement hors service, erreurs API en hausse — 28 avril 2026
News

Claude.ai actuellement hors service, erreurs API en hausse — 28 avril 2026

Une mise à jour automatique déclenchée depuis la page de statut officielle de Claude signale que Claude.ai est indisponible et que l'API connaît des taux d'erreur élevés depuis le 28 avril 2026 à 17:51:36 UTC.

OpenClawRadar